序 一 


随 着 计算 能 力 的 不 断 提高 和 可 编程 性 的 不 断 增 强 ，GPU 受 到 越 来 越 多 厂商 和 开发 人 员 的 青睐 ， 应 用 越 来 越 广泛 。 无 论 是 在 科 
学 计算 等 传统 领域 还 是 在 多 媒体 计算 等 新 兴 互 联网 领域 ， 在 融合 CPU 和 GPU 构成 的 异 构 计 算 系统 上 使 用 GPU 实现 应 用 程序 加 速 已 
经 成 为 提高 程序 性 能 的 主要 模式 。 同 时 ,主流 芯片 厂商 根据 实际 计算 需求 ， 不 断 发 展 自己 的 GPU 架 构 。 例 如 : NVIDIA 的 Fermi、 
Kepler 和 Maxwell 架 构 ; AMD 的 Cypress、Cayman、GCN 架 构 等 。 这 些 不 同 架构 的 GPU 已 经 深入 到 从 移动 计算 领域 到 超级 计算 领域 
的 方方面面 ， 异 构 计 算 正 日 益 作 为 新 的 主流 计算 机 体系 结构 。 


与 CUDA 只 能 运行 在 NVIDIA GPU 上 相 比 ，OpenCL 由 Khronos 国 际 标准 组 织 发 布 与 维护 ， 是 一 种 针对 通用 并 行 计算 的 开放 行 
业 标 准 和 跨 厂 商 解 决 方案 。 到 目前 为 止 ，OpenCL 已 有 包括 Intel、NVIDIA、AMD 在 内 的 众多 硬件 厂商 和 软件 厂商 的 支持 与 维 
护 。 随 着 异 构 计 算 的 发 展 ，OpenCEL 的 发 展 方兴未艾 ， 正 逐渐 成 为 异 构 并 行 计 算 领 域 里 异军突起 的 应 用 程序 编程 接口 。OpenCL 定 
义 了 丰富 的 API， 应 用 程序 开发 人 员 可 以 通过 使 用 OpenCL， 以 最 高 效 的 方式 充分 利用 计算 系统 中 的 各 种 异 构 计算 资源 ， 在 实现 
性 能 目标 的 同时 又 可 降低 功 耗 。 更 重要 的 是 ，OpenCL 程 序 可 以 运行 在 不 同 厂商 的 各 种 处 理 器 上 ， 实 现 了 高 性 能 并 行程 序 的 可 移 
植 。 


然而 ， 为 了 实现 上 述 目标 ，OpenCL 被 设计 成 一 个 相对 复杂 的 并 行 编程 标准 ， 其 编程 充满 了 各 种 困难 和 挑战 。 本 书 首先 通过 
简洁 、 通 俗 的 语句 和 丰富 的 代码 示例 清晰 解释 了 OpenCL 中 比较 蜀 汲 难 懂 的 各 种 概念 以 及 API 的 使 用 ; 然后 描述 了 OpenCL 到 主流 
GPU 处 理 器 的 映射 ， 最 后 通过 二 维 卷 积 、 短 阵 乘 法 等 实际 案例 的 开发 和 优化 ， 进 一 步 帮助 读者 加 深 对 OpenCL 的 概念 和 应 用 的 理 
解 。 本 书写 作 以 最 新 的 OpenCL 2.0 为 标准 ， 对 SVM 机 制 、 管 道 、 原 子 操作 等 新 概念 进行 了 非常 深入 的 描述 ， 具 有 较 强 的 前 沿 性 ， 
这 为 OpenCL 开 发 人 员 理解 、 掌 握 和 使 用 最 先进 的 OpenCL 技 术 提 供 了 很 大 的 帮助 。 


本 书 的 作者 是 长 期 战斗 在 异 构 编 程 第 一 线 的 架构 师 和 开发 者 ， 具 有 非常 丰富 的 OpenCL 使 用 和 编程 经 验 ， 本 书 正 是 他 们 多 年 
OpenCL 编 程 经 验 的 总 结 。 本 书 不 仅 详细 描述 了 OpenCL 的 各 种 概念 和 特性 ; 而 且 通 过 由 浅 入 深 的 一 系列 实际 应 用 人 案例， 帮助 读者 
掌握 这 个 令 人 激动 的 新 编程 模型 。 本 书 内 容 充实 ， 不 仅 适 合 不 同 经 验 水 平 的 学 生 和 开发 者 ， 而 且 对 于 致力 于 异 构 计 算 的 研究 人 
员 ， 也 是 一 本 非常 不 错 的 OpenCL 教 科 书 。 


张云泉 “研究员 


的 


中 国 科学 院 计算 技术 研究 所 计算 机 体系 结构 国家 重点 实验 室 


序 二 


计算 机 的 基础 组 成 在 过 去 的 十 几 年 发 生 了 很 多 变化 ， 从 单 核 处 理 器 发 展 到 多 核 处 理 器 ， 然 后 发 展 到 “ 众 核 ”处 理 器 ， 高 效 性 
的 需求 一 直 促 进 着 处 理 器 的 发 展 ， 最 终 走 到 “ 异 构 处 理 器 ”， 如 CPU 和 GPU 的 结合 ，CPU 和 FPGA 的 结合 。 这 一 阶段 异 构 处 理 器 
的 发 展 和 先前 的 形式 产生 了 本 质 的 区 别 ， 先 前 的 形式 主要 是 将 多 个 异 构 模 块 〈 在 物理 上 ) 县 加 到 一 颗 处 理 器 内 ， 而 各 异 构 单元 间 
的 内 存 、 数 据 处 理 和 通信 还 是 分 开 的 ， 如 内 存 控制 器 、 通 信 机 制 还 是 各 模块 单独 设计 。 现 代 的 异 构 处 理 器 着 眼 于 将 异 构 处 理 模块 
间 的 编程 模型 统一 、 内 存 统一 、 数 据 统一 处 理 ， 甚 至 将 各 异 构 处 理 单 元 统一 纳入 操作 系统 的 管理 之 下 ， 最 大 限度 地 提升 处 理 器 的 
可 编程 性 和 能 效 比 ， 为 此 各 大 芯片 厂商 也 不 遗 余力 地 开发 自己 的 异 构 片 上 系统 (SoC) 。 


最 近 我 们 看 到 ， 由 于 人 工 智 能 和 机 器 学 习 随 着 移动 互联 网 的 兴起 ， 特 别 是 对 图 片 、 视 频 、 语 音 等 非 结 构 化 数据 的 挖 据 、 识 
别 ， 带 动 了 以 智能 算法 为 核心 的 应 用 的 兴起 ，“ 异 构 平 台 ” 成 为 各 大 互联 网 厂商 追逐 数据 挖 据 平 台 先进 性 的 标志 之 一 。 这 源 于 异 
构 计 算 可 使 数据 处 理 的 特定 性 能 实现 成 百 上 千 们 提升 的 特点 。 


作为 异 构 编 程 人 员 首 选 的 编程 语言 模型 OpenCL (Open Computing Language) ， 其 将 GPU 计算 的 能 力 释 放出 来 ， 带 来 了 异 构 
计算 的 新 时 代 ， 在 苹果 公司 的 大 力 支持 下 ， 得 到 了 包括 AMD、Intel 等 主流 处 理 器 厂家 的 大 力 支持 ， 也 得 到 了 如 Alteta 等 主流 
FPGA 芯 片 公司 的 支持 ，OpenCL 由 Khronos Group 精心 设计 维护 ， 由 于 其 开放 、 高 度 通用 的 跨 平 台 设 计 原 则 ， 正 在 成 为 异 构 处 理 

器 的 性 能 调 优 利器 和 开发 语言 。 试 想 ， 以 后 运行 性 能 优化 能 够 在 不 同 厂家 的 异 构 处 理 器 间 兼 容 而 无 须 重 写 ， 实 现 “ 一 次 编写 ， 多 
环境 运行 ”， 则 可 以 大 大 提高 开发 效率 。 


在 该 书 出 版 之 际 ，OpenCL 2.0 的 规范 也 已 经 发 布 。 本 书 不 但 介绍 了 OpenCL 2.0 及 硬件 厂家 (如 AMD 的 HSA 架 构 ) 对 OpenCL 
2.0 的 支持 情况 ， 还 介绍 了 当前 热点 移动 处 理 器 对 异 构 平台 和 OpenCL 的 支持 情况 。 这 几 方 面相 信 都 是 读者 非常 感 兴趣 的 。 


现在 市 面 上 关于 OpenCL 编 程 的 书籍 无 论 翻 译 的 还 是 国内 自己 编写 的 都 很 多 ， 可 见 异 构 计 算 正 在 从 先前 的 以 科学 计算 为 主导 
的 领域 走向 更 开放 的 生态 系统 和 应 用 ， 这 是 非常 令 人 欣喜 的 事情 。 本 书 的 编写 背景 和 风格 与 其 他 书籍 稍 显 不 同 ， 本 书 的 几 位 作者 
均 来 自 社区 ， 也 是 活路 在 各 大 GPU 厂家 的 资深 技术 人 员 和 实际 项 目的 开发 工程 师 。 他 们 从 自己 使 用 经 验 的 角度 来 益 述 如 何 构建 一 
个 合理 优化 的 OpenCL 程 序 。 根 据 本 书 一 步 一 步 讲 解 的 内 容 来 进行 DOpenCL 编 程 ， 无 论 你 是 一 个 CPU 编程 人 员 ， 还 是 一 个 CUDA 编 
程 人 员 ， 都 能 很 快 地 学 会 OpenCL 编 程 。 本 书 中 所 涉及 的 案例 讲解 ， 作 者 都 在 AMD 的 APU 上 逐一 编写 验证 过 。 本 书 介绍 了 完整 的 
OpenCL 编程 模型 ， 同 时 结合 相关 的 知识 、 体 系 结构 ， 形 成 一 个 完整 的 编程 知识 体系 ， 非 常 适合 工程 师 阅读 和 和 参考， 尤其 是 对 正 
在 开发 项 目的 工程 师 来 说 ， 一 边 阅读 ， 一 边 动 手 实践 ， 结 合 自己 的 项 目 实施 ， 一 定 可 以 很 快 掌握 。 该 书 也 推荐 给 对 异 构 计 算 有 所 
耳闻 ， 和 希望 了 解 它 ， 以 借 力 快 速 打 开 异 构 计 算 之 门 和 实践 的 技术 爱好 者 ， 本 书 可 以 帮助 他 们 在 计算 编程 领域 更 上 一 层 楼 。 


最 后 对 几 位 作者 在 工作 之 余 付出 的 极 大 热情 和 心血 表示 感谢 ! 欢迎 体验 异 构 计 算 之 旅 。 


> 


想 合 进 


AMD (中 国 ) 异 构 计 算 技 术 总 监 


ul 
ll 


为 什么 要 写 这 本 书 


2007 年 NVIDIA 发 布 CUDA， 正 式 开 启 了 利用 GPU 作为 大 规模 数据 并 行 计算 的 时 代 。 而 最 近 几 年 GPU 计算 已 经 完成 了 从 实验 
室 、 研 究 所 的 研究 对 象 到 产业 界 提高 生产 力 的 实际 工具 的 转变 。 但 是 NVIDIA 的 CUDA 并 没有 得 到 其 他 厂商 支持 ，CUDA 代 码 并 
不 能 在 其 他 硬件 厂商 的 产品 上 运行 ， 而 在 实际 中 ， 用 户 更 希望 代码 能 够 同时 在 多 个 平台 上 运行 ， 以 减少 编码 和 优化 代价 


2008 年 ， 在 苹果 公司 将 自己 撰写 的 OpenCL 草 案 开 放 给 Khronos Group (开放 标准 组 织 ) 之 后 ，Khronos Group 在 6 个 月 的 时 间 
内 发 布 了 OpenCL 1.0 标 准 。 这 不 仅 引 起 了 像 Intel、NVIDIA、AMD 这 类 传统 CPU 和 GPU 处 理 器 厂商 的 关注 ， 而 且 还 吸引 了 像 TI 这 
类 做 DSP 的 公司 ， 以 及 Altera 这 类 做 FPGA 的 公司 。 因 为 OpenCL 将 基于 GPU 的 高 性 能 计算 概念 做 了 更 广 范 的 延展 ， 从 NVIDIA 扩 展 
到 几乎 所 有 的 硬件 厂商 ， 从 GPU 扩展 到 CPU、DSP 和 FPGA 等 ， 从 高 性 能 计算 集群 扩展 到 云 、 桌 面 和 移动 ， 我 们 称 之 为 异 构 并 行 
计算 ， 而 GPU 计算 是 异 构 并 行 计 算 的 一 种 。 


目前 ， 即 便 是 CPU 也 能 通过 OpenCL 实 现 其 内 部 的 SIMD 操 作 ， 从 而 能 达到 更 快速 的 数据 处 理 。 程 序 员 通 过 OpenCL 这 样 的 编 
程 工具 就 能 达到 加 速 原来 数据 密集 型 代码 的 目的 ， 而 无 须 过 多 关注 底层 的 硬件 特性 (如 指令 集 架构 等 ) 。OpenCL 给 程序 员 带 来 
了 标准 、 统 一 的 接口 来 实现 任务 级 并 行 以 及 数据 级 并 行 的 算法 处 理 。 


由 于 目前 OpenCL 编 程 环境 最 为 成 熟 的 还 是 AMD 的 APP 和 NVIDIA 的 CUDA， 因 此 本 书 主 要 基于 AMD APP 和 NVIDIA 的 CUDA 
编程 环境 描述 ， 考 上 处 到 移动 端 对 OpenCL 的 支持 也 越 来 越 多 ， 尤 其 是 ARM 的 Mali GPU 已 经 引入 了 广泛 的 OpenCL 支 持 ， 因 此 本 书 会 
简略 介绍 penCL 在 Mali GPU 上 的 编程 和 优化 。 


由 于 OpenCL 标 准 本 身 阅读 起 来 比较 星 涩 ， 很 多 概念 也 没有 完全 解释 清楚 ， 因 此 我 们 写 这 本 书 的 目的 是 以 更 简洁 、 通 俗 的 语 
句 来 表达 OpenCL 中 的 各 种 概念 ， 以 及 各 种 API、 各 种 语法 的 使 用 ， 使 读者 更 易 理解 。 同 时 加 入 了 很 多 代码 示例 以 及 图 表 以 进 一 
步 帮助 读者 加 深 对 这 些 概 念 的 理解 。 另 外 ， 在 写 这 本 书 的 时 候 OpenCL 2.0 标 准 已 经 发 布 将 近 1 年 了 ， 我 们 这 本 书 也 以 最 新 的 
OpenCL 2.0 标 准 为 主 ， 给 读者 呈现 当前 最 先进 的 OpenCL 技 术 。 本 书 对 OpenCL 2.0 中 所 新 引入 的 SVM 机 制 、 管 道 、 原 子 操作 等 概 
念 有 着 非常 深入 的 描述 ， 并 且 结 合 大 量 示例 进行 剖析 。 


读者 对 象 


由 于 移动 处 理 器 和 GPU 已 经 非常 便宜 ， 而 异 构 并 行 计 算是 未 来 的 趋势 ， 所 有 IT 行业 的 从 业者 都 应 当 收 藏 、 阅 读本 书 ， 以 增加 
对 OpenCL 的 了 解 。 笔 者 认为 下 列 人 员 更 应 当 阅 读本 书 : 


* 互联 网 及 传统 行业 的 IT 从 业者 ; 
. 希望 将 应 用 移植 到 移动 处 理 器 或 GPU 的 开发 人 员 ; 
“ 对 向 量化 和 并 行 化 感 兴趣 的 职业 工作 者 ; 


" 大 中 专 院 校 、 研 究 所 的 学 生 及 教授 。 


如 何 阅读 本 书 
本 书 大 致 的 目录 结构 如 下 : 
第 1 章 主 要 介绍 并 行 计算 的 发 展 历程 以 及 OpenCL 在 其 中 所 扮演 的 角色 ; 
第 2 章 和 第 3 章 介 绍 了 OpenCL 的 大 体 概念 以 及 它 在 主机 端 上 API 的 功能 和 说 明 ; 


第 4 章 和 第 5 章 主 要 描述 OpenCL C 语 言 的 概念 以 及 相关 语法 点 ; 


第 6 章 对 OpenCL 整 个 同步 机 制 做 了 一 个 总 结 性 的 整体 深入 介绍 ， 从 主机 端的 事件 同步 到 内 核 程 序 的 原子 操作 ， 每 一 种 同步 方 


式 都 做 了 非常 详细 的 介绍 ; 
第 7 章 详细 描述 了 OpenCL 与 DpenGL 之 间 的 交互 ; 


第 8 章 介绍 了 当前 OpenCL 各 大 实现 厂商 对 OpenCL 的 各 自 硬 件 实现 ， 同 时 也 讲解 了 各 种 不 同 硬件 平台 上 如 何 有 针对 性 地 对 
OpenCL 程 序 做 进一步 优化 ; 


第 9 章 和 第 10 章 通过 几 个 实际 例子 为 读者 展示 了 OpenCL 的 优化 实践 以 及 在 实际 工程 项 目 中 的 使 用 技巧 。 


阅读 本 书 的 读者 应 当 对 C 编 程 语 言 有 一 定 程度 的 理解 ， 最 好 同时 能 熟悉 基本 的 计算 机 体系 结构 方面 的 理论 知识 。 当 然 ， 考 虑 


到 很 多 工程 学 、 经 济 学 等 方面 的 专家 对 计算 机 相关 的 理论 知识 掌 所 有限， 而且 此 类 读者 往往 更 偏向 于 OpenCL 工 具 的 运用 ， 因 此 
我 们 建议 这 类 读者 可 以 略 过 整个 5.6 节 以 及 整个 第 8 章 。 虽 然 本 书 尽 可 能 通俗 而 又 简洁 地 去 介绍 大 部 分 OpenCL 2.0 标 准 中 所 涉及 的 


概念 ， 但 是 很 多 概念 没有 一 定 基 础 仍然 会 比较 难以 理解 ， 因 此 读者 在 遇 到 这 样 的 概念 时 可 以 先 实践 ， 然 后 慢 慢 消化 。 
勘误 和 文 持 


由 于 笔者 的 水 平 有 限 、 工 作 繁忙 、 编 写 时 间 仓促 ， 而 异 构 并 行 计算 领 域 正 在 高 速 发 展 中 ，OpenCL 的 标准 内 容 也 越 来 越 多 ， 
笔者 虽 已 努力 确认 很 多 细节 ， 但 书 中 难免 会 出 现 一 些 不 准确 的 地 方 甚至 是 错误 ， 居 请 读者 批评 指正 。 另 外 ， 由 于 我 们 目前 手头 上 
支持 OpenCL 2.0 标 准 的 设备 有 限 ， 本 书 中 难免 还 会 有 一 些 错误 、 瑕 疫 。 读 者 若 发 现 一 些 明 显 的 错误 或 者 对 我 们 书写 的 内 容 有 任何 
疑问 、 建 议 ， 欢 迎 与 我 们 一 同 讨论 。 我 们 的 联系 方式 为 : ly152832912@163.com。 
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风 搬 


第 1 章 “” 异 构 并 行 计算 的 过 去 、 现 状 和 未 来 


在 正式 进入 本 章 的 主题 前 ， 先 让 我 们 重 温 一 下 异 构 并 行 计算 的 概念 。 异 构 并 行 计算 包含 两 个 方面 的 内 容 : 异 构 和 并 行 。 异 构 
是 指 : 计算 单元 由 不 同 的 多 种 处 理 器 组 成 ， 如 X86 CPU+GPU、ARM CPU+GPU、X86 CPU+FPGA、ARM CPU+DSP 等 。 
行 是 指 : 要 发 挥 异 构 硬 件 平台 的 全 部 性 能 必须 要 使 用 并 行 的 编程 方式 。 这 通常 包含 两 个 层次 的 内 容 : 


1) 多 个 不 同 架 构 的 处 理 器 同时 计算 ， 要 发 挥 异 构 系 统 中 所 有 处 理 器 的 性 能 ， 可 通过 并 行 编程 使 每 个 处 理 器 都 参与 运算 ， 避 
免 处 理 器 闲置 。 相 比 于 只 让 某 一 种 类 型 的 处 理 器 参与 工作 ， 这 种 方式 提高 了 性 能 上 限 ， 简 单 举例 来 说 ， 在 X86 CPU+GPU 平 台 
上 ，X86 CPU 的 计算 能 力 为 1TFLOPS，GPU 的 计算 能 力 为 4TFLOPS， 如 果 只 使 用 GPU， 那 么 最 大 可 发 挥 的 性 能 是 4TFLOPS， 而 
如 果 加 上 X86 CPU， 则 最 大 可 发 挥 的 性 能 是 5TFLOPS。 


2) 每 个 处 理 器 都 是 多 核 向 量 处 理 器 [1]， 这 要 求 使 用 并 行 编程 以 发 挥 每 个 处 理 器 的 计算 能 力 。 通 常 每 个 处 理 器 包括 多 个 核 


心 ， 每 个 核心 包含 一 个 或 多 个 长 向 量 ， 如 AMD GCN GPU 中 就 包含 数量 不 等 的 核心 ， 每 个 核心 包含 4 个 向 量 ， 每 个 向 量 能 够 同时 
处 理 16 个 4 字 节 长 度 的 数据 。 如 果 没 能 很 好 地 并 行 ， 则 可 能 不 能 完美 地 发 挥 多 核 和 向 量化 的 性 能 。 


作为 本 书 的 开篇 ， 本 章 将 主要 介绍 异 构 并 行 计算 的 历史 、 现 状 和 未 来 : 


1) 异 构 并 行 计算 的 历史 。 即 在 异 构 并 行 计算 出 现 之 前 ， 处 理 器 是 如 何 提升 性 能 ,使 用 了 哪些 提升 性 能 的 方法 ， 这 些 方 法 为 
什么 又 遇 到 困难 了 。 读 史 使 人 明智 ， 通 过 了 解 异 构 并 行 计算 的 历史 ， 读 者 可 以 了 解 到 为 什么 异 构 并 行 计算 会 大 行 其 道 ， 也 了 解 了 
为 什么 笔者 会 编写 本 书 。 


2) 异 构 并 行 计算 的 现状 。 今 天 异 构 并 行 计算 已 经 得 到 充分 的 友 展 并 且 还 在 进一步 快速 发 展 中 ，OpenCL 和 其 他 的 异 构 并 行 
计算 工具 已 经 应 用 到 许多 图 像 处 理 、 视 频 处 理 及 科学 计算 项 目 上 ， 而 这 些 工具 自身 也 在 快速 进化 中 。 近 两 年 ， 许 多 科学 计算 以 外 
的 行业 和 领域 (如 互联 网 行业 ) 正在 应 用 异 构 并 行 计算 来 加 快 研究 和 产品 化 的 步伐 。 


3) 异 构 并 行 计算 的 未 来 。 计 算 的 未 来 是 异 构 并 行 的 ， 异 构 并 行 的 概念 、 应 用 在 计算 机 及 相关 领域 会 越 来 越 广 。 任 何 参 与 计 
算 机 及 相关 行业 的 人 员 都 应 当 了 解 并 学 习 异 构 并 行 相关 的 内 容 。 在 不 久 的 将 来 ， 不 懂 异 构 并 行 计算 就 意味 着 不 懂 计 算 机 。 


在 具体 介绍 异 构 并 行 计算 的 历史 、 现 状 和 未 来 之 前 ， 笔 者 想 介绍 几 个 始终 贯穿 本 书 的 相关 概念 : 


1) 向 量化 。 向 量化 是 一 种 一 条 指令 同时 处 理 多 个 数据 的 方法 ， 从 这 一 点 来 说 ， 它 是 一 种 数据 并 行 技术 。 主 流 的 向 量化 技术 
有 两 种 : SIMD (Single Instruction Multiple Data， 单 指令 多 数据 ) 和 SIMT (Single Instruction Multiple Thread， 单 指令 
多 线程 ) ， 大 多 数 CPU (如 AMD Zen 处 理 器 ) 都 使 用 SIMD 向 量化 技术 ， 而 大 多 数 GPU (如 AMD GCN) 都 使 用 SIMT 向 量化 技 
术 。 关 于 SIMD 的 具体 描述 请 参看 图 1-1。 


Vector Addition 


Vector Lanes (8 in this example) 


图 1-1 向 量化 示例 


SIMD 操 作 可 简单 描述 为 一 些 具有 如 下 特点 的 操作 : 对 两 个 长 向 量 寄存 器 中 的 数据 按 元 素 进行 操作 ， 结 果 向 量 寄存 器 和 源 向 
量 寄存 器 长 度 相 同 。 例 如 ， 对 两 个 长 度 为 512 位 的 向 量 进行 SIMD 操 作 ， 按 照 单 精度 进行 浮 点 加 操作 ， 假 设 单 精 度 浮 点 类 型 占用 
空间 大 小 为 4 个 字 节 ， 那 么 512 位 向 量 可 一 次 同时 处 理 16 (512 位 /8 位 每 字 节 /4 字 节 ) 个 单 精度 浮 点 数据 得 到 16 个 结果 ， 其 中 第 


一 个 向 量 的 第 1 个 元 素 和 第 二 个 向 量 的 第 1 个 元 素 相 加 产生 结果 向 量 的 第 1 个 元 素 ， 第 一 个 向 量 的 第 15 个 元 素 和 第 二 个 向 量 的 第 15 
个 元 素 相 加 产生 结果 向 量 的 第 15 个 元 素 ， 其 余 类 推 。 


2) 多 核 。 多 核 是 指 : 在 一 块 芯片 上 ， 集 成 多 个 处 理 器 核心 ， 这 多 个 处 理 器 核心 共享 或 不 共享 缓存 层次 结构 。 图 1-2 是 ARM 
公司 设计 的 ARM Cortex-A72 多 核 处 理 器 ， 从 中 可 以 看 出 其 最 多 具有 4 个 核心 (为 了 应 对 不 同 细 分 市 场 的 需求 ，ARM 处 理 器 核心 
数量 通常 可 调整 ) ， 每 个 核心 具有 32KB 一 级 数据 缓存 (L1 Cache) ，48KB 一 级 指令 缓存 ，4 个 核心 共享 512KB 到 2MB 二 级 缓存 

(L2 Cache) 。 多 核 处 理 器 通常 会 共享 主板 上 的 物理 内 存 。 


3) 多 路 。 硬 件 生产 商会 将 多 个 多 核 处 理 器 互联 (如 AMD 的 HT (Hyper Transport) 总 线 ) 在 同一 个 主板 上 ， 各 个 多 核 处 理 
器 之 间 通 常 共享 缓 人 让 (如 三 级 缓存 或 EDRAM) 或 内 存 来 交换 数据 。 由 于 主板 的 设计 会 导致 NUMA ( 非 一 致 性 内 存 访问 ) 特性 ， 
感 兴 趣 的 读者 可 参考 刘 文 志 ( 花 名 风 辰 ) 的 著作 《并 行 算法 设计 与 性 能 优化 》[ 所 中 的 2.6 节 。 


ARM® Cortex®?-A72 


ARMv8-A 
32b/64b CPU 


图 1-2 ARM Cortex-A72 多 核 向 量 处 理 器 架 


多 核 和 向 量化 是 现代 处 理 器 提升 性 能 的 两 种 主要 途径 ， 今 天 的 绝 大 多 数 处 理 器 都 已 经 是 多 核 向 量化 处 理 器 。 在 介绍 为 什么 多 
核 或 向 量化 处 理 器 如 此 流行 之 前 ， 先 让 我 们 了 解 一 下 之 前 的 单 核 标量 处 理 器 遇 到 了 什么 问题 。 
[1 本 书 的 向 量 处 理 器 指 支持 MIMD 执 行 或 SIMD 指 令 集 的 处 理 器 。 
四 机械 工 业 出 版 社 华章 公司 出 版 ， 书 号 978-7-111-50102-2。 


单 核 标 量 处 理 器 的 困境 
在 2005 年 之 前 ， 大 多 数 处 理 器 都 是 单 核 的 ， 一 些 处 理 器 已 经 开始 支持 向 量化 (如 X86 处 理 器 支持 的 MMX (多 媒体 扩展 ) 和 
SSE ( 流 式 SIMD 扩 展 ) 指令 集 ) ， 但 是 绝 大 多 数 应 用 程序 并 没有 进行 向 量化 ， 故 绝 大 多 数 代码 只 能 利用 到 单 核 处 理 器 的 标量 性 
只 能 考虑 如 何 提升 单 核 标量 处 理 器 的 


1.1 


引 令 流水 线性 能 ) 来 提升 处 理 器 的 计算 性 


能 。 对 于 单 核 标量 处 理 器 (或 者 运行 在 单 核 向 量 处 理 器 上 的 标量 代码 ) 来 说 ， 处 理 器 生产 商 
能 Bx 


性 能 。 处 理 器 生产 商 通 过 提升 单 核 标量 处 理 器 的 频率 和 指令 级 并 行 处 理 能 力 ( 即 提升 
能 ， 如 图 1-3 所 示 。 

从 图 1-3 中 可 以 看 出 ， 在 2005 年 之 前 ， 单 核 标量 处 理 器 的 性 能 基本 上 是 每 18 个 月 近似 提升 一 售 ， 这 称 为 摩尔 定律 。 关 于 摩尔 
定律 有 许多 不 同 的 表述 ， 也 有 一 些 表述 上 的 不 同和 和 争议， 本 节 就 不 追究 其 原因 和 细节 ， 只 简单 地 称 “ 单 核 标 量 处 理 器 性 能 每 18 


多 改 ， 只 需要 等 
尔 定律 带 来 的 成 果 : 


受 摩尔 定 


2 内 和 2 


个 月 提升 一 倍 ”为 摩尔 定律 。 
在 2005 年 之 前 ， 单 核 标量 处 理 器 性 能 提升 能 满足 摩尔 定律 的 时 期 称 为 提升 软件 性 能 的 “免费 午餐 ”时 期 ， 因 为 单 核 标量 代 
码 的 性 能 可 以 满足 摩尔 定律 描述 的 速度 提升 ， 在 这 个 前 提 下 ， 应 用 程序 无 须 作 等 待 下 一 代 处 理 器 的 推出 ， 到 时 现在 的 
代码 自然 就 能 够 跑 得 更 快 。 处 理 器 生产 商 、 研 究 人 员 和 软件 开发 人 员 都 非常 高 兴 且 享 
1) 对 处 理 器 生产 商 来 说 ， 能 够 稳定 地 推出 性 能 更 好 的 产品 能 够 帮助 他 们 顺利 推动 产品 的 更 新 换代 ， 卖 出 更 多 新 产品 ， 淘 汰 
旧 产 品 ， 获 得 更 多 利润 。 处 理 器 生产 商 获 得 了 更 多 利润 就 能 够 进一步 增加 研发 投入 ， 以 推出 性 能 更 好 的 产品 。 对 处 理 器 生产 商 来 


说 ， 这 是 一 个 良性 循环 。 
2) 对 研究 人 员 来 说 ， 他 们 基于 当前 处 理 器 的 计算 能 力 来 设计 应 用 ， 获 得 研究 结果 ， 并 依据 摩尔 定律 来 估计 下 一 代 处 理 器 能 


够 提供 的 性 能 ， 设 计 在 下 一 代 处 理 器 上 能 够 快速 运行 的 应 用 。 在 下 一 代 处 理 器 推出 后 ， 就 可 以 获得 更 好 的 结果 
3) 对 软件 开发 人 员 来 说 ， 无 须 花 费 太 多 精力 来 优化 程序 性 能 ， 只 需要 建议 老板 购买 新 硬件 即 可 获得 性 能 提升 。 

4) 在 这 种 处 理 器 生产 商 和 软件 开发 人 员 相 互 促进 的 良性 循环 下 : 软件 开发 人 员 依 据 当 时 处 理 器 的 性 能 设计 应 用 ， 并 依据 摩 
尔 定律 对 下 一 代 处 理 器 的 性 能 提出 预期 (设计 在 下 一 代 处 理 器 上 能 够 流畅 运行 的 应 用 ) ， 处 理 器 生产 商 生产 新 处 理 器 以 满足 摩尔 


定律 对 性 能 的 要 求 ， 并 将 新 处 理 器 卖 给 软件 开 友 人 员 ， 周 而 复 始 ， 相 互 促进 。 
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图 1-3 处理 器 频率 、 性 能 、 功 耗 和 核 数 变化 


Original data collected and plotted by M.Horowitz,F.Labonte,O.Shacham,K.Olukotun,L.Hammond and C.Batten Dotted line 


extrapolations by C.Morre 


在 2005 年 之 后 ， 单 核 标量 处 理 器 的 性 能 基本 上 达到 顶峰 ， 很 难 进一步 大 幅度 (超过 10%) 提升 性 能 。 在 回答 为 什么 单 核 标 
量 处 理 器 的 性 能 无 法 接着 以 摩尔 定律 要 求 的 速度 提升 之 前 ， 先 让 我 们 看 一 下 ， 在 2005 年 之 前 单 核 标量 处 理 器 如 何 提升 性 能 ， 
为 只 有 知道 之 前 如 何 提升 性 能 ， 才 能 知道 为 什么 不 能 以 同样 的 方式 接着 提升 性 能 。 


1.2 ”多核 并 行 计算 与 向 量化 的 出 现 


由 于 散热 技术 和 硬件 生产 技术 无 法 满足 提高 处 理 器 频率 对 功 耗 的 设计 要 求 ， 现 代 处 理 器 的 频率 近似 停滞 。 为 了 提供 更 高 性 能 
的 处 理 器 ， 处 理 器 硬件 生产 商 通 过 增加 寄存 器 的 宽度 和 指令 的 宽度 来 同时 处 理 多 个 数据 ， 这 称 为 向 量化 。 多 核 和 向 量化 的 出 现 提 
升 了 处 理 器 的 执行 能 力 。 通 过 稍微 降低 频率 ， 现 在 的 散热 技术 能 够 满足 处 理 器 对 功 耗 的 需求 。 


今天 的 绝 大 多 数 处 理 器 ， 如 X86 多 核 CPU、ARM 多 核 CPU、GPU 及 DSP 等 ， 都 已 经 是 多 核 向 量 处 理 器 。 多 核 和 向 量化 的 出 
现 满足 了 应 用 对 计算 能 力 的 需求 ， 但 是 它们 也 带 来 了 两 个 重要 的 问题 : 如 何 编程 以 发 挥 多 核 和 向 量 的 计算 能 力 ; 如 何 保证 随 着 核 
数 和 向 量 长 度 的 增加 ， 性 能 的 提升 依旧 接近 线性 。 


1.3” 异 构 并 行 计算 的 崛起 


从 2007 年 NVIDIA 推 出 CUDA 计 算 环境 开始 ， 异 构 并 行 计算 逐渐 得 到 大 众 的 认同 ， 从 学 术 界 走向 了 工业 界 。 异 构 并 行 计算 包 
含 两 个 子 概念 : 异 构 和 并 行 。 


1) 异 构 是 指 异 构 并 行 计算 需要 同时 处 理 多 个 不 同 架 构 的 计算 平台 的 问题 ， 如 目前 主流 的 异 构 并 行 计算 平台 X86+GPU、 
X86+FPGA， 以 及 目前 正在 研发 中 的 ARM/Power+GPU。 


2) 并 行 是 指 异 构 并 行 计算 主要 采用 并 行 的 编程 方式 ， 无 论 是 X86 处 理 器 ， 还 是 ARM 和 和 GPU 处理 器 以 及 DSP， 这 里 所 有 的 处 
理 器 都 是 多 核 向 量 处 理 器 ， 要 发 挥 多 种 处 理 器 混合 平台 的 性 能 也 必须 要 采用 并 行 的 编程 方式 。 


最 先 拥抱 异 构 并 行 计算 的 领域 是 科学 计算 ， 如 分 子 动力 学 模拟 中 需要 长 时 间 的 运算 ,使 用 X86+GPU 的 异 构 并 行 模式 能 够 将 
模拟 时 间 由 几 周 缩短 为 1 周 或 几 天 。 


异 构 并 行 计算 的 出 现 缓解 了 处 理 器 发 展 面临 的 两 个 主要 问题 : 性 能 问题 和 功 耗 问题 。 


1) 由 于 不 同 的 硬件 适合 处 理 不 同 的 计算 问题 。 合 理 地 将 不 同类 型 的 计算 分 发 到 异 构 平台 的 不 同 硬件 上 能 够 获得 更 好 的 计算 
性 能 ， 如 将 需要 短 时 间 运 行 的 串 行 计算 分 发 给 X86， 而 将 需要 长 时 间 运 行 的 并 行 计算 部 分 分 发 给 GPU。 


2) 由 于 采用 为 特定 应 用 优化 的 处 理 器 。 处 理 器 设计 可 以 依据 应 用 的 具体 特点 来 优化 ， 故 功 耗 方面 也 会 获得 更 好 的 结果 。 


在 性 能 和 功 耗 都 比较 重要 的 情况 下 ， 如 何 衡量 处 理 器 的 性 能 就 变 得 复杂 起 来 ， 对 于 计算 性 能 至 上 的 应 用 来 说 ， 性 能 更 为 重 
要 。 而 对 于 功 耗 有 特殊 要 求 的 应 用 来 说， 性 能 功 耗 比 可 能 更 为 合适 。 性 能 功 耗 比 ， 即 每 瓦 功 耗 能 够 支撑 的 处 理 器 计算 能 力 。 


14 异 构 并 行 计算 的 未 来 (百花齐放 ) 


近 十 年 来 ， 异 构 并 行 计算 平台 、 标 准 如 雨后春笋 般 地 出 现 ， 发 展 也 是 一 日 干 里 。 从 私有 的 CUDA、C++AMP、Direct3D、 
Metal API， 到 开放 的 OpenCL、OpenACC、OpenGL。 而 老牌 共享 存储 器 编程 环境 OpenMP 和 分 布 式 编程 环境 MPI 也 增加 了 
对 异 构 计算 的 支持 ， 这 些 无 一 不 显示 着 这 个 领域 现在 的 辉煌 ， 这 是 一 个 异 构 计算 正在 百花 齐 放 的 时 代 ， 在 短期 内 这 个 领域 依旧 会 
呈现 百花 齐 放 的 形态 ， 甚 至 还 会 有 新 的 平台 、 新 的 标准 出 现 。 而 长 期 来 说 ， 最 有 可 能 笑 到 最 后 的 ， 必 定 是 OpenCL， 这 主要 是 因 
为 OpenCl 具 有 以 下 特点 : 


高 性 能 : OpenCL 是 一 个 底层 的 API， 它 能 够 很 好 地 映射 到 更 底层 的 硬件 上 ， 充 分 发 挥 硬件 中 各 个 层次 的 并 行 性 ， 故 能 够 
获得 很 好 的 性 能 。 
适用 性 强 : OpenCL 是 一 个 抽象 的 API， 它 抽象 了 当前 主流 的 异 构 并 行 计算 硬件 的 不 同 架构 的 共性 ， 同 时 又 兼顾 了 不 同 硬 


件 的 特点 ， 因 此 具有 广泛 的 适用 性 。 


“开放: OpenCL 是 由 开放 组 织 开 发 、 维 护 的 标准 ， 不 会 被 一 家 厂商 所 控制 ， 故 能 够 获得 最 广泛 的 硬件 支持 ， 如 AMD、 
Intel、NVIDIA、ARM、Qualcomm 和 联发科 等 都 已 经 或 正在 其 硬件 上 支持 OpenCL。 


. 无 蔡 代 选项 : 无 论 是 NVIDIA 的 CUDA， 还 是 微软 的 C++AMP 和 Google 的 Render Script， 都 没有 获得 大 量 厂 商 的 支持 ， 只 有 
OpenCL 得 到 了 几乎 所 有 相关 主流 硬件 厂商 的 支持 。 


由 于 具有 高 性 能 、 适 用 性 强 、 开 放 和 没有 蔡 代 方 案 ， 未 来 OpenCL 必 将 在 异 构 并 行 计算 领域 占有 不 可 动摇 的 地 位 ， 甚 至 一 统 
异 构 并 行 计算 领域 。 


1.MPI 3 对 异 构 并 行 计算 的 支持 


经 典 的 分 布 式 人 存储 并 行 标准 MPI 在 其 版 本 3 中 明确 了 人 允许 在 数据 传输 函数 调用 时 使 用 异 构 平 台 上 的 指针 的 内 容 ， 并 且 同 时 在 
标准 中 扫 清 了 相关 的 数据 匹配 等 问题 。 这 使 得 MPI 在 进行 数据 传输 时 ， 能 够 直接 传递 指向 GPU 或 其 他 硬件 上 内 存 地 址 的 指针 。 
从 另外 一 个 角度 来 说 ，MPI 3 对 异 构 并 行 计 算 的 支持 是 象征 性 的 ， 只 是 把 几 家 MPI 实 现 厂商 天 于 CUDA 的 优化 升级 为 标准 中 的 一 
个 内 容 固定 下 来 ， 未 来 的 MPI 4 会 有 更 多 对 异 构 并 行 计算 支持 的 重量 级 内 容 。 


对 于 使 用 OpenCL 的 软件 开发 人 员 来 说 ，MPI 3 对 异 构 的 支持 几乎 为 0， 因 此 本 节 也 就 不 展开 了 。 
2.O0penMP 对 异 构 并 行 计算 的 支持 


经 典 的 共享 存储 器 并 行 编程 环境 OpenMP 在 其 4.0 版 标准 中 增加 了 许多 支持 异 构 计 算 的 构造 ， 如 target、target data 等 ， 考 
虑 到 本 书 的 定位 ， 关 于 OpenMP 4 对 异 构 并 行 计 算 的 具体 支持 内 容 ， 请 参见 刘 文 志 ( 花 名 风 辰 ) 的 著作 《并 行 编程 方法 与 优化 
实践 》[] 的 3.5 节 。 


在 笔者 编写 此 书 时 ，GCC 和 Clang 的 OpenMP 都 在 实现 OpenMP 4 标准 ， 相 信 当 读者 拿 到 本 书 时 ，GCC 已 经 部 分 或 完全 支 
持 OpenMP 4 标准 了 。 


3.OpenCL 无 处 不 在 


在 OpenCL 推 出 之 前 ， 异 构 并 行 计算 领域 主要 是 基于 X86 CPU+GPU， 这 个 市 场 主要 有 NVIDIA 和 AMD 两 个 玩家 ， 其 中 
NVIDIA 的 CUDA 占 据 了 绝 大 多 数 的 市 场 份额 ，AMD 的 brook+ 勉 力 维持 ， 因 此 NVIDIA 实 际 上 成 了 这 个 市 场 的 垄断 圭 主 。 


AMD 很 清楚 brook+ 不 是 CUDA 的 对 手 ， 因 此 在 OpenCl 推 出 后 ， 立 刻 全 面 转向 OpenCL， 放 弃 brook+。AMD 不 但 在 其 
GPU 上 全 面 支持 OpenCL， 还 在 其 X86 CPU 上 支持 OpenCL， 是 第 一 个 提供 CPU+GPU 全 面 支持 OpenCL 的 厂家 。AMD 转 向 
OpenCL 后 ， 和 OpenCL 的 编程 模型 紧密 结合 ， 推 出 了 备 受 赞誉 的 GCN 系 列 GPU，GCN 系 列 使 得 AMD 有 实力 在 异 构 并 行 计算 市 
场 上 和 NVIDIA 一 较 高 下 ， 并 且 不 断 地 从 NVIDIA 口 中 夺 食 。 


NVIDIA CUDA 进 入 超 算 中 心 后 ，Inte| 意 识 到 危险 ， 如 是 开启 了 GPU 计算 硬件 项 目 〈 即 larrabee， 是 今天 MIC 的 前 身 ) ， 但 
是 Intel 之 前 的 大 多 数 工具 都 不 是 为 了 异 构 并 行 计算 设计 的 ，Intel 迫 切 地 需要 设计 或 改进 一 种 语言 以 满足 其 GPU 计 算 硬件 的 需 
要 。 一 开始 Intel 选 择 了 MPI 和 OpenMP， 由 于 在 MIC 上 运行 MPI 程 序 遇 到 了 许多 问题 ， 因 此 OpenMP 成 为 事实 上 的 唯一 选项 。 
Intel 通 过 修改 其 OpenMP 实 现 ， 在 其 OpenMP 实 现 中 加 入 了 支持 异 构 并 行 计算 的 内 容 ，Intel 的 OpenMP 实 现 中 关于 异 构 并 行 计 
算 的 扩展 后 来 成 为 OpenMP 4 的 基础 ， 在 OpenMP 4 标准 制定 时 ， 标 准 委员 会 有 OpenACC (参见 附录 B) 和 Intel 的 OpenMP 扩 
展 两 个 选择 ， 最 终 Intel 赢 了 。 不 久之 后 ，Intel 意 识 到 OpenMP 并 不 能 很 好 地 发 挥 MIC 的 性 能 ， 而 且 随 着 其 业务 扩展 ，Intel 可 能 
要 为 每 种 产品 都 设计 一 个 扩展 (如 为 其 集成 GPU 架 构 Gen 设 计 一 个 ， 为 以 后 的 嵌入 式 CPU/GPU 又 要 设计 一 个 ) 。Intel 最 终 很 不 
情愿 地 推出 了 其 OpenCL 支 持 方案 ,但 是 这 种 支持 是 全 面 且 一 劳 永 锡 的， 无 论 是 Intel 的 X86 CPU、MIC GPU， 还 是 Intel X86 
CPU 集成 的 GEN 架 构 GPU 都 得 到 了 支持 。 一 个 统一 的 、 基 于 OpenCL 的 平台 ， 能 够 让 开发 人 员 编 写 的 一 份 代码 运行 在 Intel 的 所 
有 处 理 器 上 ， 这 将 会 是 Intel 历 史上 非常 明智 的 举动 之 一 。 


2013/2014 年 ， 主 流 的 移动 处 理 器 厂商 也 推出 了 基于 其 移动 GPU 的 OpenCL 编 译 运 行 环境 ， 如 Imagination Technology 的 
PowerVR 系 列 移动 GPU、 高 通 的 Adreno 系 列 移动 GPU、ARM 的 Mali 系 列 GPU 都 支持 了 OpenCL。 与 此 同时 ， 主 流 的 FPGA 厂 商 
Altera 和 Xilinx 也 推出 了 其 OpenCL 编 译 运 行 环境 。 


今天 OpenCL 已 经 广泛 应 用 于 分 子 动力 学 模拟 、 计 算 流体 力学 、 图 形 图 像 处 理 、 视 频 音频 处 理 ， 目 前 正在 用 于 计算 机 视觉 等 
领域 。 许 多 研究 人 员 正 在 研究 如 何 将 OpenCL 应 用 于 大 数据 处 理 等 更 多 领域 。 


由 机 械 工业 出 版 社 华章 公司 出 版 ， 书 号 978-7-111-50194-7。 


1.5 本章 小 结 


本 章 介绍 了 异 构 并 行 计算 的 历史 、 现 状 和 未 来 ， 并 且 介 绍 了 关联 的 许多 概念 。 在 2005 年 之 前 ， 人 处 理 器 通常 提高 频率 来 提高 
计算 性 能 ， 由 于 性 能 是 可 预测 的 ， 因 此 在 硬件 生产 商 、 研 究 人 员 和 软件 开发 人 员 之 间 形 成 了 一 个 良性 循环 。 由 于 功 耗 的 限制 ， 处 
理 器 频率 不 能 接着 提升 ， 硬 件 生产 商 转 而 使 用 向 量化 或 多 核 技术 。 


随 着 GPU 计算 的 兴起 ，CUDA 和 OpenC! 渐 渐 获 得 了 广泛 的 关注 ， 异 构 并 行 计 算 从 学 术 界 走向 工业 界 ， 获 得 了 大 众 的 认可 。 
今天 几乎 所 有 主流 的 处 理 器 硬件 生产 商都 已 经 在 支持 OpenCL， 未 来 OpenCL 必 将 无 处 不 在 。 


第 2 章 ”OpenCL 的 基本 介绍 


本 章 开始 ， 将 以 OpenCL 的 历史 背景 作为 出 发 点 ， 逐 步 介 绍 OpenCL 有 关 知 识 。 本 章 将 介绍 OpenCL 历 史 、OpenCL 平 台 模 
型 、 执 行 模 型 、 存 储 器 模型 、OpenCL 与 OpenGL 的 关联 、OpenCL 与 CUDA 的 区 别 与 联系 。 通 过 以 上 介绍 ， 使 得 读者 对 于 
OpenCL 有 一 个 整体 认识 。 


2.1 什么 是 OpenCL 


2008 年 ， 苹 果 公 司 向 Khronos Group 提交 了 一 份 关于 跨 平台 计算 框架 的 草案 ， 该 草案 由 苹果 公司 开发 ， 并 与 AMD、1BM、 
Intel 和 NVIDIA 公 司 合作 逐步 完善 。 这 个 跨 平台 计算 框架 就 是 OpenCL (Open Computing Language， 开 放 计 算 语 言 
2008 年 12 月 8 日 ，OpenCL 1.0 技 术 规 范 发 布 。2010 年 6 月 14 日 ，OpenCL 1.1 发 布 。2011 年 11 月 19 日 ，OpenCL 1.2 发 布 。 
2013 年 11 月 19 日 ，OpenCL 2.0 发 布 。 


OpenCL 是 一 个 为 异 构 并 行 计算 平台 编写 程序 的 工业 标准 ， 此 异 构 计算 平台 可 映射 到 CPU、GPU、DSP 和 FPGA 等 计算 设 
备 。OpenCl 提 供 了 底层 硬件 结构 的 抽象 模型 ， 旨 在 提供 一 个 通用 的 开放 APIl， 既 减轻 开发 人 员 的 编程 难度 ， 又 让 开发 人 员 能 
写 出 高 效 可 移植 代码 。 例 如 ， 使 用 OpenCL， 开 发 人 员 可 以 编写 在 GPU 上 运行 的 通用 计算 程序 ， 而 无 须 将 其 算法 映射 到 OpenGL 
或 DirectX 的 3D 图 形 API 上 。 


为 了 描述 OpenCL 设 计 的 核心 ，Khronos Group 将 OpenCL 异 构 并 行 计算 架构 划分 为 平台 模型 (platform model) 、 存 储 
器 模型 (memory model) 、 执 行 模型 (execution model) 和 编程 模型 (programming model) ， 这 些 模型 既 相互 独立 ， 
又 相互 联系 ， 组 成 了 OpenCL 的 有 机 整体 。 接 下 来 的 章节 ， 将 逐步 讲解 这 4 个 模型 。 由 于 编程 模型 和 程序 设计 的 细节 密切 相关 ， 
因此 放 在 第 3 章 详细 说 明 。 


2.2 ”OpenCL 平 台 模 型 


平台 模型 是 关于 OpenCL 如 何 看 待 硬件 的 一 个 抽象 描述 。OpenCL 平 台 模 型 由 主机 及 其 相连 的 一 个 或 多 个 OpenCL 设 备 组 
成 ， 如 图 2-1 所 示 。 通 常 主机 是 指 包含 X86 或 ARM 处 理 器 的 计算 平台 。OpenCL 设 备 可 以 是 CPU (也 可 以 将 主机 端的 CPU 作为 
OpenCL 设 备 ) 、GPU、DSP、FPGA 或 硬件 商 提供 、OpenCL 开 发 商 支 持 的 任何 其 他 处 理 器 。 每 个 DOpenCL 设 备 有 一 个 或 者 多 
个 计算 单元 (Compute Units，CU) ， 而 每 个 计算 单元 又 由 一 个 或 多 个 处 理 单 元 (Processing Elements，PE) 组 成 ， 处 理 单 
元 是 设备 上 执行 数据 计算 的 最 小 单元 。 后 面谈 到 OpenCL 内 存 模 型 和 工作 组 时 ， 就 会 明白 为 什么 会 把 OpenCL 设 备 分 为 处 理 单元 
和 计算 单元 。 


主机 
处 理 单元 


图 2-1 OpenCL 平 台 模 型 


OpenCL 平 台 模 型 包含 一 个 主机 及 一 个 或 多 个 OpenCL 设 备 ， 每 个 OpenCL 设 备 包 含 一 个 或 多 个 计算 单元 ， 每 个 计算 单元 包 
含 一 个 或 多 个 处 理 单元 。 


由 于 OpenCL 的 平台 模型 包含 了 至 少 两 种 处 理 器 ， 如 何 连接 这 两 种 处 理 器 就 和 在 这 两 种 处 理 器 之 间 传 输 信息 的 性 能 密切 相 
关 ， 目 前 OpenCL 设 备 主要 通过 PCI-e 总 线 和 主机 相连 接 ， 
2.3 OpenCL 执 行 模型 


OpenCL 程 序 包 含 主机 端 程序 和 设备 端 内 核 (kernel) 程序 。 主 机 端 程序 运行 在 主机 处 理 器 上 ， 主 机 端 程序 以 命令 方式 将 内 
核 程序 从 主机 提交 到 OpenCL 设 备 ，OpenCL 设 备 在 处 理 单元 上 执行 计算 。 根 据 这 两 个 不 同 执行 单元 定义 了 OpenClL 执 行 模型 。 


内 核 在 OpenCL 设 备 上 执行 ， 完 成 OpenCL 应 用 的 具体 工作 。 内 核 通 常 是 一 些 计算 量 大、 逻辑 比较 简单 的 函数 ，OpenCL 设 
备 通过 内 核 将 输入 数据 计算 处 理 后 输出 到 主机 。 在 OpenCL 中 定义 了 三 类 内 核 : 


. OpenCL 内 核 : 用 OpenCL C 编 程 语言 编写 ， 并 用 OpenCL C 编 译 器 编译 的 函数 。 所 有 OpenCL 实 现 都 必须 支持 OpenCL 内 核 


和 OpenCL C 编 程 语言 。 


. 原生 内 核 : OpenCL 之 外 创建 的 函数 ， 在 OpenCL 中 可 以 通过 一 个 函数 指针 来 访问 。 例如， 这 些 函 数 可 以 是 主机 源 代码 中 定 
义 的 函数 ， 或 者 是 从 一 个 专门 库 导 出 的 函数 。 需 要 指出 的 是 ， 执 行 原生 内 核 是 OpenCL 的 一 个 可 选 功能 ， 原 生 内 核 的 语义 依赖 于 


具体 OpenCL 实 现 。 


. 内 建 内 核 : 被 绑 定 到 特定 设备 ， 并 不 需要 源码 编译 成 程序 对 象 的 函数 。 常 见 用 法 是 针对 公开 固定 函数 硬件 或 固件 ， 将 它们 
关联 到 一 个 特定 的 OpenCL 设 备 或 自 定义 设备 。 内 建 内 核 是 OpenCL 扩 展 功能 ， 内 建 内 核 语义 依赖 于 具体 OpenCL 实 现 。 例 
如 ，Intel 针 对 运动 搜索 ， 提 供 了 block_motion_estimate_intel 内 建 内 核 ， 使 用 clCteatePtogramYWithBuiltInKernels0 函数 来 创建 程序 对 


象 ，block_motion_estimate_intel 内 建 内 核 函 数 名 “block_motion_estimate_intel” 作 为 参数 提供 给 clCreateProgramWithBuiltInKernels 


苞 数 即 可 。 


由 于 OpenCL 设 备 通常 没有 IO 处 理 能 力 ， 因 此 10 操 作 通 常 由 主机 承担 ， 这 意味 着 程序 开始 执行 时 ， 数 据 通 常 都 在 主机 上 ， 
故 OpenCL 设 备 需要 从 主机 上 获得 数据 ， 在 OpenCL 设 备 计 算 完成 后 ， 又 需要 将 数据 从 OpenCL 设 备 复制 回 主机 。 


对 于 OpenCLl 执 行 模型 来 说 ， 最 重要 的 是 上 下 文 、 命 令 队列 和 内 核 三 个 概念 ， 理 解 了 这 三 个 概念 就 基本 上 理解 了 OpenCL 的 
本 质 。 


2.4 OpenCL 存 储 器 模型 


在 OpenCl 执 行 模型 的 上 下 文中 ， 我 们 简要 提 及 OpenCL 存 储 器 对 象 ， 并 没有 详细 讲述 OpenCL 存 储 器 对 象 的 细节 ， 也 没有 
提 及 OpenCL 存 储 器 对 象 的 不 同类 别 等 问题 。 这 些 问 题 在 本 节 中 都 能 够 得 到 解决 。 我 们 将 从 存储 器 区 域 、 存 储 器 对 象 、 共 享 虚拟 
存储 器 三 方面 分 析 OpenCL 存 储 器 模型 。 而 关于 存储 器 一 致 性 模型 ， 将 在 5.6 节 中 进行 详细 介绍 。 


2.5 OpencCL 与 OpenGL 


如 图 2-4 所 示 ， 从 GPU 诞生 之 日 起 ，GPU 的 设计 逻辑 与 CPU 的 设计 逻辑 相差 很 多 。GPU 从 诞生 之 日 起 ， 它 的 定位 是 3D 图 形 
泻 染 设备 。 在 设计 GPU 时 从 其 功能 出 发 ， 把 更 多 的 晶体 管用 于 数据 处 理 。 这 使 得 GPU 相 比 CPU 有 更 强 的 单 精度 浮 点 运算 能 力 。 
人 们 为 了 充分 利用 GPU 的 性 能 ， 使 用 了 很 多 方法 。 这 其 中 不 得 不 提 OpenGL (Open Graphics Library， 开 放 图 形 库 ) 。 


图 2-4 CPU 与 GPU 架构 区 别 


OpenGL 定 义 了 一 个 跨 编 程 语言 、 跨 平台 的 应 用 程序 接口 规范 ， 它 用 于 生成 二 维 、 三 维 图 像 。 这 个 接口 由 近 350 个 不 同 的 函 
数 调用 组 成 ， 用 来 从 简单 的 图 像 比特 绘制 到 复杂 的 三 维 景 象 。 


当 我 们 把 绘制 的 图 像 传递 给 OpenGL 后 ，OpenGL 还 要 做 很 多 才能 完成 3D 空 间 到 屏幕 的 投影 。 这 一 系列 的 过 程 称 为 OpenGL 
泻 染 流水 线 。 一 般 的 泻 染 流水 线 过 程 如 图 2-5 所 示 。 在 顶点 装配 和 片段 操作 中 ， 使 用 GPU 中 的 着 色 器 (英文 为 shader， 实 际 上 就 
是 GPU 的 处 理 器 ) 来 进行 相应 操作 。 进 行 几何 处 理 的 处 理 器 叫 顶 点 着 色 器 ， 它 负责 对 顶点 进行 坐标 转换 、 投 影 变 换 等 ;进行 片 
段 颜色 处 理 的 叫 片段 着 色 器 。 


随 着 GPU 技术 的 发 展 ，GPU 的 图 形 泻 染 流水 线 从 固定 功能 流水 线 发 展 到 可 编程 泻 染 流水 线 。 可 编程 泻 染 流水 线 含 有 若干 可 
编程 着 色 器 (比如 ，OpenGL 2.0 起 支持 顶点 和 片段 着 色 器 ; OpenGL 3.2 起 支持 了 几何 着 色 器 ; OpenGL 4.0 起 支持 了 细 分 曲面 
相关 的 着 色 器 ; OpenGL 4.3 又 引入 了 计算 着 色 器 ) ， 这 些 可 编程 着 色 器 处 理 单元 可 实现 用 户 自 定义 算法 的 功能 。OpenGL 中 的 
GLSL (OpenGL Shading Language，OpenGL 着 色 器 语言 ) 就 是 一 种 着 色 器 语言 。 利 用 GLSL 可 以 实现 上 述 GPGPU (General 
Purpose GPU， 通 用 计算 GPU) 的 各 种 着 色 器 程序 。 但 为 了 掌握 GLSL， 人 们 需要 去 学 习 太 多 的 计算 机 图 像 学 知识 ， 这 使 得 在 开 
始 时 的 学 习 曲 线 比较 陡峭 。 


几何 顶点 数据 
显示 列表 


帧 缓冲 如 


图 2-5 OpenGL 图 像 流水 线 


从 2007 年 以 后 ， 基 于 CUDA 和 OpenCL 这 些 被 设计 成 具有 近似 于 高 阶 语言 的 语法 特性 的 新 GPGPU 语 言 ， 降 低 了 人 们 使 用 
GPGPU 的 难度 ， 平 缓 了 开始 时 的 学 习 曲 线 。 使 得 在 GPGPU 领 域 ，OpenGL 中 的 GLSL 逐 渐 退 出 了 人 们 的 视线 。OpenCl 与 
OpenGL 一 样 ， 都 是 基于 硬件 API 的 编程 。 


2.6 OpenCL 与 CUDA 


2007 年 ，NVIDIA 向 市 场 推出 GPGPU 整 套 解决 方案 一 -CUDA。CUDA 是 集 硬 件 与 软件 于 一 体 的 集成 技术 。CUDA 编程 
是 在 C99 的 扩展 上 进行 的 ， 这 大 大 降低 了 开发 GPGPU 程 序 的 难度 ， 使 得 开发 人 员 可 以 方便 地 开发 GPGPU 程 序 。 对 于 CUDA (的 
代码 ， 只 能 运行 在 NVIDIA G80 架 构 以 后 的 GPU 上 。 


OpenCL 是 2008 年 才 发 布 的 基于 硬件 API 编 程 的 工业 标准 。OpenCL 相 比 CUDA， 支 持 的 平台 更 多 ， 除 了 GPU 还 有 CPU、 
DSP、FPGA 等 设备 。 截 至 本 书 撰写 之 时 ，OpenCLl 已 发 布 4 个 正式 标准 ， 最 新 版 本 为 OpenCL 2.1， 而 NVIDIA 的 GPU 只 支持 到 
OpenCL 1.2， 对 于 开发 人 员 来 说 有 点 遗憾 。OpenCL 编 程 模型 设计 时 ， 借 鉴 和 参考 了 CUDA 编 程 模型 。 从 编程 语言 来 
看 ，OpenCL 和 CUDA 语 法 基本 类 似 ， 所 以 对 开发 人 员 而 言 ， 如 果 熟 悉 OpenClL 或 CUDA 中 的 其 中 一 种 ， 要 熟悉 另外 一 种 编程 语 
言 是 很 容易 的 ， 这 也 使 CUDA 与 OpenCL 程 序 之 间 相 互 移植 会 比较 容易 。 不 过 由 于 OpenCL 支 持平 台 更 多 ， 所 以 在 主机 端 
OpenCL 处 理 相 比 CUDA 显 得 有 点 烦琐 。 


本 书 针对 OpenCL 编 程 ， 对 CUDA 以 及 其 他 异 构 并 行 编程 方式 将 做 简要 概述 ， 不 详细 展开 。 对 CUDA 编 程 有 兴趣 的 读者 ， 可 
以 从 NVIDIA 官 网 (http://www.nvidia.com/content/cuda/cuda-downloads.html) 下 载 CUDA 有 关 文 档 和 开发 包 。 


2.7 本章 小 结 


本 章 介绍 了 OpenCL 的 基本 概念 : 平台 模型 、 执 行 模型 、 存 储 器 模型 。 本 章 并 没有 介绍 编程 模型 。 


在 平台 模型 中 ，OpenCL 将 计算 平台 抽象 成 主机 加 OpenCL 设 备 的 模式 ， 主 机 负责 将 命令 入 队 交 给 OpenCL 设 备 计算 , 而 
OpenCL 设 备 负责 计算 内 核 


在 执行 模型 中 ， 上 下 文 负责 管理 OpenCL 执 行 所 需要 的 资源 ， 包 括 设备 、 命 令 队 列 、 存 储 器 对 象 、 程 序 对 象 等 。 一 个 命令 队 
列 对 象 关联 到 一 个 OpenCL 设 备 ， 主 机 通过 命令 队列 向 OpenCL 设 备 提交 操作 。 


在 存储 器 模型 中 ， 全 局 人 存储器、 常量 存储 器 对 所 有 内 核实 例 都 可 见 ， 而 局 部 仓储 器 只 对 一 个 工作 组 中 的 所 有 工作 项 可 见 ， 经 
常用 于 工作 组 内 数据 共享 ， 私 有 存储 器 只 对 某 个 工作 项 可 见 。 


第 3 章 ”进入 OpenCL 的 世界 (矢量 加 法 ) 


本 章 从 一 个 简单 的 向 量 加 法 示例 程序 开始 。 本 章 中 ， 我 们 会 介绍 在 Windows 和 Linux 系 统 下 基于 AMD APP SDK 的 OpenCL 
环境 搭建 ， 以 及 OS X 系 统 下 如 何 使 用 Xcode 进行 OpenCL 开 发 ， 并 且 基 于 矢量 加 法 示例 程序 ， 详 细 讲 解 以 下 过 程 : 


- 选择 OpenCL 平 台 和 OpenCL 设 备 ; 


. 创建 上 下 文 和 命令 队列 ; 


创建 程序 对 象 和 内 核对 象 ; 


“ 如 何 编 写 内 核 代 码 ，; 
" OpenCL 错 误 处 理 。 


通过 对 上 述 几 个 过 程 的 讲解 ， 让 读者 了 解 并 熟悉 OpenCL 开 发 一 般 的 操作 流程 ， 并 且 可 以 定位 和 解决 程序 执行 期 间 出 现 的 错 


本 章 将 首先 介绍 Windows 和 Linux 系 统 下 OpenCL 的 环境 搭建 ， 因 OS X 原 生 支 持 OpenCL， 简 要 介绍 如 何 用 Xcode 进行 
OpenCL 开 发 。 有 了 环境 之 后 ， 通 过 一 个 简单 的 OpenCL 向 量 加 法 示例 程序 对 OpenCL 开 发 的 主要 过 程 进行 讲解 。 最 后 给 出 初学 
者 比较 头疼 的 出 错 原 因 以 及 如 何 查 找 错误 的 方法 。 


3.1 构建 示例 


在 开始 进行 OpenCL 编 程 之 前 ， 我 们 需要 构建 OpenCL 开 发 环境 。 由 于 目前 支持 OpenCL 的 厂商 很 多 ， 我 们 无 法 一 一 给 出 不 
同 广 商 OpenCL 开 发 环境 的 搭建 ， 本 书 实验 硬件 主要 基于 AMD APU 和 GPU。 这 里 假定 读者 已 经 熟悉 相关 操作 系统 下 的 开发 工具 
的 使 用 ， 并 已 安装 AMD GPU 相应 的 驱动 ， 我 们 将 从 Windows 系 统 、Linux 系 统 和 OS X 系 统 来 讲述 不 同 操作 系统 下 OpenCL 环 境 
的 搭建 。 


3.2 ”获得 OpenCL 平 台 和 设备 及 其 属性 


OpenCLl 程 序 的 第 一 步 就 是 选择 OpenCl 平 台 。OpenCl 平 台 指 的 是 OpenCL 设 备 和 OpenCL 框 架 的 组 合 ， 不 同 的 OpenCL 厂 
商 属于 不 同 的 OpenCL 平 台 。 一 个 异 构 计算 机 上 可 以 同时 存在 多 个 OpenCL 平 台 。 例 如 ， 在 一 个 系统 中 ， 可 能 存在 NVIDIA 
GPU、AMD GPU 与 Intel CPU， 多 个 OpenCL 实 现 并 存 ， 对 于 这 种 平台 有 3 个 不 同 平台 。 在 OpenCL 程 序 开发 中 ， 我 们 需要 显 式 
地 指定 选择 用 哪个 平台 。 对 于 同一 平台 上 可 能 关联 有 不 同 的 设备 ， 如 在 Qualcomm 平 台 ，CPU 和 Adreno GPU 都 支持 
OpenCL， 都 可 以 作为 OpenCL 设 备 ， 在 这 种 一 个 平台 中 含有 多 个 可 用 计算 设备 的 环境 下 ， 编 程 人 员 就 需要 人 为 选择 使 用 哪 种 
OpenCL 设 备 。 


下 面 我 们 就 将 详细 讲述 如 何 调用 OpenCL APl 来 选择 平台 和 设备 。 


3.3 ”创建 上 下 文 和 命令 队列 


3.3.1 创建 OpenCL 上 下 文 


上 下 文 为 关联 的 设备 、 内 存 对 象 、 命 令 队列 、 程 序 对 象 、 内 核对 象 提供 一 个 容器 。 上 下 文 是 OpenCL 应 用 的 核心 。 正 是 上 下 
文 驱动 着 应 用 程序 与 特定 设备 以 及 特定 设备 之 间 的 通信 。 


对 于 上 下 文中 关联 的 所 有 计算 设备 必须 全 都 来 自 于 同一 平台 ， 对 于 来 自 不 同 平台 的 OpenCL 设 备 ， 需 要 为 各 个 平台 独立 地 创 
建 上 下 文 。 对 于 同一 平台 的 设备 ， 上 下 文中 可 以 天 联 多 个 设备 。 主 机 应 用 也 可 以 使 用 多 个 上 下 文 来 管理 多 个 设备 ， 甚 至 同一 个 平 
台 多 个 设备 都 可 以 关联 到 不 同 的 上 下 文 ， 如 图 3-7 所 示 。 


平台 1 平台 2 
| cpul | 本 ee | ee | GPU3 | ED | CPU2 GPU1 || GPU2 || GPU3 
| ] 
| I ] CPUl GPUIl GPU3 
CPUIl GPU2 | CPUI | GPU2 | [MGpws ] 
、 加 上 下 文 4 
上 下 文 1 上 下 文 2 le za | 
上 下 文 3 


图 3-7 平台 、 设 备 和 上 下 文 


在 图 3-7 中 ， 平 台 1 有 多 个 CPU 和 GPU 设备 。 同 一 平台 的 设备 可 以 关联 到 同一 上 下 文中 ， 所 以 上 下 文 1、 上 下 文 2 中 关联 CPU 
和 GPU 设备 是 可 行 的 。 对 于 平台 中 的 设备 ， 上 下 文 不 是 非 要 关联 所 有 的 设备 ， 所 以 在 上 下 文 4 中 只 是 关联 了 部 分 设备 。 而 不 同 平 
台 的 设备 不 能 关联 到 同一 上 下 文中 ， 所 以 关联 平台 1 中 的 GPU3 和 平台 2 中 的 CPU1 的 上 下 文 3 是 不 合法 的 。 


OpenCL 上 下 文 对象 用 cl_context 类 型 表示 ， 可 以 使 用 如 下 两 个 国 数 其 中 之 一 来 创建 上 下 文 : 


cl context clCreateContext (Const cl context properties 
*properties , cl uint num qevices ， 
const cl device id  *qevices ， 
void (CL CALLBACK *pfn notify ) 
(const char *, Gonst ‘void *, 
Size. ty VoLid *)y 
void *user data ， 
cl int *errcode ret ) 
cl context clCreateCont xtFromType (const cl context . properties 
*properties, 
cl device typ device type ， 
void (CL CALLBACK *pfn notify ) 
(const char *, Const void *, 
size t, void *)， 
void *user data, 
cl int  *errcode ret) 


两 个 函数 用 法 很 类 似 ， 主 要 的 区 别 在 于 : clCreateContext 显 示 地 指定 设备 (devices) 来 创建 上 下 文 ; 
clCreateContextFromType 根 据 给 定 的 设备 类 型 (device type) 来 创建 上 下 文 。 对 设备 类 型 详 见 表 3-2。 


参数 properties 指 定 上 下 文 属性 名 称 及 属性 相应 的 值 的 列表 ， 且 最 后 一 个 元 素 为 0， 见 表 3-4。 当 实现 自 定 义 选 择 平 台 时 ， 参 
数 properties 可 以 设置 为 NULL。 


表 3-4 clCteateContext 支 持 的 属性 


cl_context_properties 属性 值 描 述 
CL CONTEXT PLATFORM cl _ platform id 指定 使 用 的 平台 
指定 用 户 是 否 负 责 OpenCL 与 其 他 API 之 间 
CL CONTEXT INTEROP USER SYNC| cl bool 同步 pa CL CONTEXT INTEROP 
USER _SYNC， 上 默认 值 为 CL FALSE 


参数 pfn_notify 和 user_data 用 来 共同 定义 一 个 回调 函数 ， 可 以 调用 这 个 回调 报告 上 下 文生 命 周期 中 出 现 错误 的 有 关 信息 ， 
要 把 user_data 作 为 最 后 一 个 参数 传 至 回调 函数 。user_data 为 void 类 型 指针 ， 也 就 是 可 以 指向 任何 数据 ， 当 错误 发 生 时 
user_data 能 够 提供 信息 。 参 数 pfn_notfiy 和 user_data 也 都 可 以 设置 为 NULL。 参 数 errcode_ret 为 函数 的 返回 状态 ， 成 功 执行 值 
为 CL SUCCESS， 否 则 值 为 对 应 的 错误 代码 。 


代码 清单 3-8 展 示 了 给 定 一 个 平台 ， 查 询 平台 中 GPU 设备 ， 并 创建 上 下 文 : 


代码 清单 3-8 创建 上 下 文 


cl device id *device; 

cl platform id platform; 
cl int err; 

cl uint NumDevice; 
/选择 第 一 个 平台 

err = clGetPlatformIiDs (1, &platform, NULL); 
rr = ClLGetDeviceIDs (Platform CL DEVICE TYPE GPU, 0, NULL, 
&NumDevice); 

device = (cl device id *)malloc(sizeof(cl] device id) * 

加 加 NumDevice); 加 


// 选择 GPU 设备 
rr = clGetDeviceIDs (Platform CL DEVICE TYPE GPU, NumDevice, 
device, NULL); 


// 创建 上 上下文 

cl context properties properites[] = {CL CONTEXT PLATFORM, 
(cl context .properties) platform, 
0}7 


// 指定 设备 创建 上 下 文 
// cl context 
context=clCreateContext (properites,NumDevice,device,NULL,NULL, &err); 
// 指定 设备 类 型 创建 上 下 文 
cl context context = clCreateContextFromType (properites, 
CL DEVICE TYPE GPU, 
NULL, NULL, &err); 


例子 中 ，clCreateContext 函 数 把 平台 中 查询 到 的 所 有 GPU 设备 都 关联 到 创建 的 上 下 文中 。clCreateContextFromType 则 
是 选择 第 一 平台 中 的 GPU 设备 。 从 功能 来 说， 两 个 函数 实现 的 功能 是 一 样 的 。 


给 定 上 下 文 ， 可 以 使 用 如 下 函数 查询 上 下 文 各 个 属性 信息 : 


cl int clGetContextIinfol(cl context context ， 
cl context info param name ， 
size 七 param Value size ， 
void *param Value ， 
Size t xparam Value size ret ) 


参数 param_name 为 查询 属性 名 称 ， 取 值 见 表 3-5， 参 数 param_value 返 回 上 下 文 查询 属性 信息 。 


表 3-5 ”上下文 属性 查询 


cl_context_info 描 述 
CL CONTEXT REFERENCE COUNT 返回 上 下 文 引用 计数 
CL CONTEXT NUM DEVICES 返回 上 下 文中 的 设备 数 
CL CONTEXT DEVICES 返回 上 下 文中 的 设备 列表 
返回 clCreateContext 或 clCreateFromType 


CL_CONTEXT PROPERTIES cl_context properies[] 中 指定 的 ies 参数 
日 不 时 propertles 娠 多 


代码 清单 3-9 展 示 了 使 用 clContextinfo0 查 询 上 下 文 关联 的 设备 数目 及 上 下 文 的 引用 计数 方法 : 


代码 清单 3-9 ”获取 上 下 文 信息 


cl platform id platform; 

cl int err; 

cl uint NumDevice; 

err = clGetPlatformIiDs (1, &platform, NULL); 

cl context properties properites[] = {CL CONTEXT PLATFORM, 

(cl context properties)platform, 0 

}; 

cl context context = clCreateContextFromType (properites, 
CL DEVICE TYPE ALL, 
NULL, NULL, &err); 


NumDevice = 0; 
size t DeviceSize; 

rr = clGetContextInfo(context, CL CONTEXT NUM DEVICES, 
sizeof (cl uint), é&NumDevice, NULL); 

printf ("Number of Device in context:%d\n", NumDevice); 


上 述 代码 片段 中 ， 在 调用 函数 clContextlnfo 时 ， 对 其 参数 param_name 指 定 的 是 CL CONTEXT_NUM_DEVICES， 从 字面 
上 理解 非常 直观 ， 即 我 们 要 查询 当前 上 下 所 包含 的 计算 设备 个 数 。 除 了 可 指定 CL CONTEXT_NUM_DEVICES 这 个 属性 以 外 ， 还 
能 指定 CL CONTEXT_REFERENCE_COUNT 这 一 属性 ， 表 示 查 询 当 前 上 下 文 的 引用 计数 值 。 在 之 前 我 们 没有 讲解 任何 关于 
OpenCL 中 引用 计数 的 概念 ， 那 这 个 引用 计数 到 底 是 什么 ? 它 又 有 何 作用 呢 ? 


在 使 用 clCreateContext 或 clCreateContextFromType 创 建 上 下 文 时 ， 并 不 像 我 们 之 前 创建 平台 和 设备 时 返回 错误 代码 ， 而 
是 直接 返回 cl|_context 对 象 ， 此 时 该 上 下 文 对 象 的 引用 计数 为 1。 其 实 ，OpenCL 对 很 多 对 象 采用 了 类 似 于 Apple 的 Cocoa 
Framework 中 的 内 存 管 理 机 制 (毕竟 OpenCL 的 初稿 出 自 Apple) 。 在 这 种 机 制 下 ， 主 张 谁 分 配 了 某 个 对 象 ， 那么 谁 就 负责 释放 
该 对 象 。 如 果 这 个 对 象 不 是 由 你 来 分 配 的 ， 那 么 你 也 不 用 去 释放 它 。 我 们 通过 OpenCL 接 口 就 能 看 出 哪些 对 象 是 被 分 配 的 ， 哪 些 
不 是 。 例 如 ，clGetPlatforml1Ds 函 数 所 获得 的 platform_id 对 象 就 不 需要 通过 某 个 接口 进行 释放 ， 因 为 它 是 通过 Get 获 得 的 。 类 
似 的 是 ，clGetDevicelDs 也 同样 如 此 。 这 里 的 clCreateContext 我 们 看 到 用 的 是 Create 这 个 前 级 ， 当 我 们 看 到 这 个 前 绎 时 就 要 想 
到 一 定 有 一 个 与 之 相对 应 的 Retain 接 口 和 Release 接 口 。Retain 接 口 用 于 显 式 地 做 引用 计数 加 1 操作 ; 而 Release 则 是 显 式 地 做 引 
用 计数 减 1 操作 ， 而 只 有 当 引 用 计数 为 0 时 ，Release 操 作 才 会 释放 对 应 的 空间 。 而 引入 这 个 引用 计数 机 制 对 于 第 三 方 库 或 者 跨 模 
块 的 开发 非常 有 利 。 例 如 ， 我 们 在 模块 A 创 建 了 一 个 上 下 文 ， 然 后 在 做 完 某 个 计算 后 把 它 提交 给 模块 B 继 续 计 算 。 当 然 ， 出 于 性 
能 要 求 ， 模 块 B 借 用 了 这 个 上 下 文 对 象 之 后 可 能 会 自己 另 建 一 个 命令 队列 然后 执行 ， 因 此 与 模块 A 的 后 续 操作 完全 可 以 是 异步 
的 。 这 就 会 引发 一 个 问题 ， 当 模块 A 执行 完 之 后 ， 把 该 上 下 文 对 象 释放 掉 ， 而 模块 B 此 时 还 在 使 用 这 个 上 下 文 对 象 。 因 此 ， 如 果 
没有 引用 计数 ， 而 是 直接 把 此 上 下 文 对 象 释放 掉 ， 那 么 模块 B 在 使 用 此 对 象 时 就 可 能 会 引发 异常 。 而 有 了 3 引用 计数 机 制 ， 我 们 可 
以 遵循 这 个 机 制 来 做 一 一 在 模块 A 中 创建 上 下 文 对 象 ， 那么 在 A 用 完 之 后 通过 Release 接 口 将 它 释 放 。 如 果 要 把 此 对 象 交 给 模块 B 
做 后 续 操作 ， 那 么 要 由 模块 B 对 此 对 象 做 一 次 Retain 操 作 ， 然 后 模块 B 操 作 完 成 之 后 也 要 调用 一 次 Release 操 作 来 释放 此 上 下 文 对 
象 。 这 样 一 来 ， 上 下 文 对 象 就 能 安全 而 又 完整 地 被 模块 A 与 模块 B 共 同 使 用 了 。 


对 于 上 下 文 对 象 的 Retain 和 Release 接 口 如 下 : 


cl int clRetainContext (cl context context ) 
cl int clReleaseContext (cl context context ) 


clRetainContext 增 加 引用 计数 (引用 计数 +1) ，clReleaseContext 减 少 引 用 计数 (引用 计数 -1) 。 如 果 外 部 函数 访问 预先 
创建 的 上 下 文 ， 确 保 在 处 理 前 调用 clIRetainContext， 处 理 完 成 后 调用 clReleaseContext。 如 果 在 创建 上 下 文 的 函数 中 ， 在 函数 
完成 前 调用 clReleaseContext 来 减少 引用 计数 ， 使 其 值 为 0， 释 放 上 下 文 空 间 ， 代 码 清单 3-10 展 示 了 这 两 个 函数 的 使 用 方式 : 


代码 清单 3-10 ”context 引 用 计数 示例 


cl context properties properites[] = {CL CONTEXT PLATFORM, 

(cl context properties)platform, 0 
}; 

cl context context = clCreateContextFromType (properites, 

CL DEVICE TYPE ALL, NULL, NULL, NULL); 


cl uint ReferenCount; 
clGetContextInfo (context, CL CONTEXT REFERENCE COUNT, 


& n 
printf ("Initial Reference Count: %d\n ", ReferenCount); 
clRetainContext (context); 
clGetContextInfo (context, CL CONTEXT REFERENCE COUNT, 
sizeof (cl uint), &ReferenCount, NULL); 
printf ("Reference Count: %d\n ", ReferenCount); 
clReleaseContext (context); 
clGetContextInfo (context, CL CONTEXT REFERENCE COUNT, 
sizeof (cl uint), &ReferenCount, NULL); 
printf ("Reference Count: %d\n ", ReferenCount); 


如 上 代码 ， 在 笔者 系统 上 ， 输 出 为 : 


Initial Reference Count:1 
Reference Count:2 
Reference Count:1 


3.4 ”创建 程序 对 象 和 内 核对 象 


程序 对 象 与 内 核对 象 是 OpenCL 中 两 个 最 重要 的 对 象 ， 这 两 个 对 象 天 系 到 在 设备 上 执行 的 代码 ， 以 及 代码 执行 所 实现 的 功 
能 。 对 于 初学 者 ， 可 能 区 分 不 出 程序 对 象 和 内 核对 象 的 区 别 。 对 于 内 核对 象 而 言 ， 一 个 内 核对 象 代表 的 就 是 一 个 在 设备 上 执行 的 
函数 ;而 对 于 程序 对 象 而 言 ， 一 个 程序 对 象 就 是 内 核 的 一 个 容器 。 打 个 比方 : 程序 对 象 就 好 比 一 个 集群 系统 ， 内 核对 象 就 好 比 在 
这 个 集群 系统 中 的 节点 ， 多 个 节点 组 成 了 这 个 集群 系统 ， 同 时 对 于 每 个 节点 而 言 可 以 执行 不 同 的 任务 (程序 对 象 里 的 每 个 内 核 函 
数 实现 功能 不 同 ) 。 换 句 话说 ， 我 们 通常 会 在 一 个 .cl 文件 里 写 上 多 个 内 核 浮 数 (被 kernel 关键 字 所 修饰 的 图 数 ) ， 甚 至 写 上 多 
个 .cl 文件 ， 包 含 多 个 内 核 函 数 。 一 个 程序 对 象 包 含 了 对 所 有 指定 c| 源 文件 编译 、 构 建 后 的 一 个 二 进 制 目标 对 象 。 而 一 个 内 核对 象 
则 表示 其 中 某 一 个 内 核 执行 函数 。 


3.5 ”程序 对 象 


程序 对 象 包含 多 个 在 设备 上 执行 的 内 核 函 数 ， 是 内 核对 象 的 集合 。 在 OpenCL 中 用 cl_program 类 型 来 表示 程序 对 象 。 本 节 
我 们 会 讲解 如 何 创建 和 编译 程序 对 象 。 


3.6 内 核对 象 


过 之 前 章节 的 操作 ， 我 们 创建 并 构建 了 程序 对 象 。 正 如 之 前 所 说 ， 一 个 程序 对 象 就 是 内 核 的 一 个 容器 ， 在 本 节 中 我 们 就 透 
过 容器 ， 来 分 析 容 器 内 部 的 内 核对 象 。 内 核对 象 可 以 是 一 个 通过 命令 队列 发 送 到 设备 上 执行 的 函数 。 在 本 节 中 ， 我 们 分 别 通过 创 
建 内 核对 象 、 设 置 内 核 参数 以 及 查询 和 管理 内 核对 象 三 部 分 来 讲述 内 核对 象 。 


3.7 ”执行 内 核 


通过 本 章 之 前 内 容 的 描述 ， 分 别 创建 了 关联 选 定 设备 的 上 下 文 、 命 令 对 象 、 程 序 对 象 以 及 内 核对 象 ，OpenCL 代 码 在 设备 上 


执行 的 前 期 准备 都 已 准备 好 ， 本 节 我 们 讲述 如 何 让 内 核 函 数 在 设备 上 执行 。 
利用 命令 队列 使 将 在 设备 上 执行 的 内 核 排队 ， 是 通过 如 下 函数 完成 的 : 


cl int clEnqueueNDRangeKernel (cl command queue command queue, 
cl kernel kernel, 

cl uint work "im; 

const size 七 *global work offset, 
const size - 二 *global 1 WOFK ， . Size, 
const sizse 七 *]local WOrK | Size; 
cl uint num events in wait list, 
const cl event *event wait list, 
cl event . *event) 


“ 参数 command_queue 为 提交 内 核 执 行 任务 的 命令 队列 ， 命 令 队 列 创建 时 关联 了 指定 的 设备 ，command_queue 关 联 的 设备 就 
是 最 后 执行 内 核 函 数 的 设备 。 


“ 参数 kernel 为 在 设备 上 执行 的 内 核 函数 。 


* 参数 work_dim 指 定 设备 上 执行 内 核 函数 的 全 局 工作 项 的 维度 。 最 小 为 值 |， 最 大 值 为 
CL_DEVICE_MAX_WORK_ITEM_DIMENSIONS。 


: 参数 global_wotk_offset 为 全 局 工作 项 ID 的 偏 移 量 。 如 果 global_wotk_offset 为 NULL， 则 偏 移 量 为 0。 在 目前 的 大 多 数 设备 
上 ， 此 参数 必须 设置 为 NULL。 


“ 参数 global_work_size 指 定 全 局 工作 项 的 大 小 。 


数 local_work_size 为 一 个 工作 组 内 工作 项 的 大 小 。 
“ 参数 work_dim、global_work_offset、global_work_size 和 local_work_sizse 的 用 法 ， 将 在 第 4 章 中 进行 详细 的 介绍 。 


“ 参数 num_events_in_wait_list 和 event_wait_list 指 定 了 在 执行 内 核 操作 之 前 ， 需 要 等 待 hum_evetns_in_wait_jlist 各 event_wait_list 


中 的 事件 执行 完成 。 


.参数 event 指 向 这 个 命令 生成 的 一 个 事件 对 象 。 后 续 的 命令 或 主机 可 以 使 用 这 个 事件 的 状态 来 控制 其 他 操作 。 


关于 事件 的 使 用 ， 将 在 第 6 章 中 详细 的 讲解 。 


由 于 函数 clIEnqueueNDRangeKernel0 中 参数 的 意义 超过 了 目前 我 们 讲解 的 内 容 ， 在 此 笔者 就 不 对 具体 的 某 个 参数 展开 讲 


解 。 读 者 当前 不 理解 这 些 参数 的 作用 也 没关系 ， 只 需要 记 住 使 用 该 函数 向 设备 提交 内 核 轴 数 执行 命令 。 在 接 下 来 的 章节 中 ， 我 们 
会 展开 对 每 个 参数 的 讲解 ， 读 者 到 时 再 回 过 头 来 看 本 章节 内 容 。 


3.8 ”编写 内 核 代 码 


对 于 刚 接触 OpenCL 编 程 的 读者 而 言 ， 如 何 编写 内 核 代 码 是 他 们 很 关心 的 一 个 问题 。 在 本 节 中 ， 我 们 就 来 讲解 如 何 编写 内 核 
代码 。 从 3.4 节 中 可 以 知道 ，OpenCL 程 序 对 象 可 由 源码 创建 。 


下 面 通过 一 个 简单 的 例子 来 了 解 如 何 使 用 OpenCL C 编 写 一 个 内 核 程序 将 两 个 浮 点 数组 相 加 。 串 行 版 本 代码 求 和 时 需要 通过 
一 个 循环 将 两 个 数组 中 的 各 个 元 素 相 加 : 


void aqq cpu (int n, const float *a, const float xb ， 
float *result) 
{ 
Lrit 1 
for(i = 0; i < ny i++) 
{ 
result[i] = a[i] + bl[i]; 
} 
} 


使 用 OpenCL C 并 行 代码 如 下 : 


kernel void add gpu(global const float *a, global const float *b, 
global float *result) 
{ 
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int id = get global id(0) 
[iqd]; 


result[id] = a[lid] + b 


add_gpu 函 数 声明 使 用 Kernel 或 (_kernel) 修饰 符 来 告诉 编译 器 这 是 一 个 OpenCL C 内 核 肖 数 。add_gpu 内 核 只 包含 计算 
单个 元 素 求 和 的 代码 ， 也 就 是 串 行 代码 中 的 内 循环 ， 这 是 因为 在 数据 并 行 模式 下 ， 同 时 会 有 多 个 工作 项 来 参与 计算 ， 每 个 工作 项 
只 参与 跟 自 己 ID 相关 的 计算 。 在 代码 中 使 用 内 建 函 数 get_global_id0 来 获得 当前 工作 项 的 ID。 关 于 内 建 工作 项 函数 ， 以 及 不 同 设 
备 执行 模型 ， 将 在 第 4 和 第 8 章 介 绍 ， 这 里 就 不 展开 。 在 此 读者 需要 记 住 的 是 ， 内 核 阔 数 使 用 kernel 修 饰 符 来 限定 ， 并 且 内 核 阔 


数 不 能 有 返回 值 ， 只 能 是 void 类 型 。 


通过 上 述 的 例子 ， 我 们 知道 了 如 何 正 确 书写 一 个 内 核 函 数 的 规则 ， 但 内 核 源码 到 底 应 该 用 什么 方式 来 保存 呢 ? 在 OpenCL 开 
发 中 ， 对 于 内 核 源码 的 处 理 一 般 有 下 列 两 种 方式 。 


1. 内 核 代码 保存 


我 们 可 以 把 内 核 代 码 保存 在 一 个 文本 文件 中 ， 该 文本 文件 后 经 习惯 为 “cl”， 如 kernel.cl。 对 于 kernel.cl 文 件 ， 与 我 们 一 般 
的 文件 读 取 处 理 一 样 。 在 kernel.cl 中 的 内 容 书 写 格式 与 C 语 言 风格 类 似 。 


例如 ， 看 一 个 规约 的 内 核 代码 ， 文 件 Reduction_kernel.c| 内 容 如 下 : 


”kernel void reduce( global uint4 *input, 
”global uint4 *output, 
_ local uint4 *sdata) 


// load shared mem 
unsigned int tid = get local id(0); 


unsigned int bid = get group id(0); 

unsigned int gid = get global iqd(0); 

unsigned int localSize = get local size(0); 

unsigned int stride = gid * 2; 

sdata[ltid] = input[striqe] + input[stride + 1]; 
barrier (CLK LOCAL MEM FENCE); 

// do reduction in shared memory 

for(unsigned int s = localSize >> 1;s > 0) s >>= 1) 


{ 


if'(tid < s) 
{ 


sdata[ltid] += sdatal[ltid + s]; 
} 
barrier (CLK LOCAL MEM FENCE); 


} 
// write result for this block to global mem 
if(tid == 0) output [pidq] = sdata[l0]; 


代码 书写 规范 与 C 语 言 一 样 。 在 程序 中 需要 读 取 Reduction_kernel.cl 文 件 内 容 。 文 件 后 缀 名 之 所 以 为 “cl”， 只 是 习惯 而 
已 ， 不 过 很 多 OpenCL 代 码 编辑 器 能 自动 识别 .cl 文件 从 而 可 以 显示 相应 的 语法 高 之 (如 Xcode 就 是 其 中 之 一 ) 。 但 是 需要 注意 的 
是 ， 如 果 采 用 这 种 方式 ， 内 核 代 码 文件 需要 跟随 程序 一 起 发 布 。 如 果 开 发 者 不 想 把 OpenCL 源 代码 直接 暴露 给 用 户 ， 那 么 就 需要 
在 应 用 发 布 前 使 用 某 些 工具 来 对 .cl 文件 进行 加 密 。 笔 者 常用 的 是 在 开发 阶段 采用 此 种 方式 ， 最 后 应 用 程序 发 布 时 把 源 代码 编译 过 
后 保存 为 二 进 制 文件 。 详 细 操作 请 查看 3.4 节 中 的 例子 。 


2 字符 串 保存 


如 果 采 用 这 种 方式 ， 需 要 把 .cl 文件 内 容 读 取 到 字符 串 中 。 所 以 内 核 代码 也 可 以 直接 写 在 字符 串 中 。 例 如 : 


const char *src[] = 
{ 
" _ kernel void redution( \n" 
n ”global int *data, \n" 
global int *output, Ni 


”local int *data local \n" 

TY ) Na 

TY { \n" 

i int gid=get group id(0); Nn 

int tid=get global id(0); Vn 

" int size=get local size(0);  \n" 

m int id=get local id(0); Nan 

由 data local[idq]=qata[tid]， Na 

机 barrier (CLK LOCAL MEM FENCE); Nm 

由 for (int i=size/2;i>0;i>>=1){ \n" 

if (igd<i)f{ Nn 

下 data _ local [idq]+=dqata local[id+i]; Wii 
站 } \n" 

barrier (CLK LOCAL MEM FENCE); \n" 
由 } Nan 

if (id==0) { \n" 

到 output [gidq]=qata local[0]; NE 

wm } Nn 

} \n" 


字符 捉 中 内 容 格式 与 写 C 代 码 格 式 一 致 。 对 于 每 一 行 末 尾 需 要 添加 “\n” 换 行 符 。 


两 种 编写 内 核 代 码 方式 作用 一 样 。 对 于 第 一 种 方式 ， 在 写 代 码 过 程 中 比较 方便 ， 与 我 们 常规 的 C 代 码 风格 一 致 ， 但 源码 在 后 
期 处 理 过 程 中 需要 增加 文件 读 取 ; 对 于 第 二 种 方式 ， 在 写 代码 过 程 中 有 点 烦琐 ， 但 源码 可 以 直接 交 给 函数 
clCreateProgramWithSource() 处 理 。 在 这 两 种 方式 中 ， 笔 者 更 常用 第 一 种 方式 。 


3.9 OpenCL 错 误 处 理 


对 于 OpenCL 中 每 个 API 函 


源 限 制 等 问题 使 函数 执行 失败 。 成 功 执行 ，i 


数 都 有 相应 的 函数 执行 状态 ， 如 函数 clGetPlatform1lDs() 的 返回 值 ， 或 函数 clCreateContext0 最 
后 一 个 参数 errcode_ret。 我 们 可 以 通过 检查 这 个 执行 状态 来 获知 某 个 OpenCL 主 机 端的 函数 AP 是 


否 执行 成 功 ， 还 是 由 于 某 些 资 


返回 的 状态 为 CL_SUCCESS， 如 果 执 行 失败 都 会 有 相应 的 错误 码 。 在 opencl.h 头 文 


件 中 ， 列 出 了 所 有 可 能 的 错误 代码 ， 笔 者 把 这 些 错 误 代 码 在 表 3-15 中 列 出 来 。 


表 3-15 OpenCL 错误 码 


错误 码 

CL SUCCESS 

CL DEVICE NOT FOUND 
CL DEVICE NOT AVAILABLE 2 
CL COMPILER NOT AVAILABLE 
CL MEM OBJECT ALLOCATION FAILURE 4 
CL OUT OF RESOURCES 5 
CL OUT OF HOST MEMORY 


[9] 一 一 


CL_PROFILING_INFO NOT _ AVAILABLE 


1 
| 


CL MEM COPY OVERLAP 
CL IMAGE FORMAT MISMATCH 

CL IMAGE FORMAT NOT SUPPORTED 
CL BUILD PROGRAM FAILURE 

CL MAP FAILURE 


1 
一 
pe 


-12 
CL MISALIGNED SUB BUFFER OFFSET 


CL EXEC STATUS ERROR FOR_EVENTS 
IN_WAIT LIST 


CL COMPILE PROGRAM FAILURE 
CL LINKER NOT AVAILABLE 

CL LINK PROGRAM FAIURE 

CL DEVICE PARTITION FAILED 

CL KERNEL ARG INFO NOT AVAILABLE 
CL INVALID VALUE 

CL INVALID DEVICE TYPE 

CL INVALID PLATFORM 

CL INVALID DEVICE 

CL INVALID CONTEXT 

CL INVALID QUEUE PROPERTIES 


下 


Es | | 
iIa|u 


1 | 
| 


-32 


| 
ULD 
LD 


1 | 
Wy | 
Ah | 上 上 


CL INVALID COMMAND QUEUE -36 
CL INVALID HOST _ PTR =39 
CL INVALID MEM OBJECT -38 


描 述 

命令 成 功 执行 ， 没 有 出 现 错误 
未 发 现 与 条 件 匹 配 的 OpenCL 设备 
OpenCL 设备 目前 不 可 用 
OpenCL ee 
无 法 为 内 存 对 象 分 配 空 
设备 上 没有 足够 包 汪 
主机 上 没有 足够 的 内 存 
法 得 到 时 间 的 性 能 评测 信 ， 
评测 
两 个 缓冲 区 在 同一 个 内 存 区 域 重 半 

图 像 未 采用 相同 的 图 像 格式 

不 支持 指定 的 图 像 格 式 

无 法 为 程序 构建 可 执行 代码 

内 存 区 域 无 法 映射 到 主机 内 存 

上 下 文中 没有 设备 关联 的 缓冲 初始 值 为 CL_ DEVICE 
MEM BASE ADDR _ ALIGN 

由 clWaitForEventO 返回 ， 事 件 列表 中 任意 事件 的 
执行 状态 为 一 个 复数 

编译 程序 源码 出 错 

链接 需 不 可 用 

链接 程序 失败 

设备 分 割 失败 

给 定 内 核 的 参数 信息 无 效 

命令 的 一 个 或 多 个 参数 值 不 合法 

传人 的 设备 类 型 不 是 合法 值 

传人 的 平台 不 是 合法 值 

传人 的 设备 不 是 合法 值 

传人 的 上 下 文 不 是 合法 值 

设备 不 文 持 命令 队列 属性 

传 入 的 命令 队列 不 是 合法 值 

主机 指针 不 合法 

传人 的 内 存 对 象 不 是 合 


息 或 者 命令 队列 不 支持 


性 


| 


法 值 


错误 码 
CL_INVALID IMAGE FORMAT _ 
DESCRIPTOR 
INVALID IMAGE SIZE 
CL_INVALID SAMPLER 
CL_INVALID BINARY 
CL_INVALID BUILD OPTIONS 
CL _INVALID PROGRAM 
CL _INVALID PROGRAM EXECUTABLE 
CL _INVALID KERNEL NAME 
CL _INVALID KERNEL DEFINITION 
CL_INVALID KERNEL 
CL_INVALID ARG INDEX 
CL _INVALID ARG VALUE 
CL_INVALID ARG SIZE 
CL_INVALID KERNEL ARGS 
CL _INVALID WORK DIMENSION 
CL INVALID WORK GROUP SIZE 
CL _INVALID WORK ITEM SIZE 
CL INVALID GLOBAL OFFSET 


CL _INVALID EVENT WAIT LIST 


CL_INVALID EVENT 
CL_INVALID_OPERATION 
CL _INVALID GL OBJECT 
CL _INVALID BUFFER SIZE 


CL _INVALID MIP LEVEL 


CL _INVALID GLOBAL WORK SIZE 
CL_INVALID PROPERTY 

CL _INVALID IMAGE DESCRIPTOR 

CL_ INVALID COMPILER OPTIONS 
CL_INVALID LINKER_OPTIONS 
CL_INVALID DEVICE PARTITION COUNT 
CL_INVALID PIPE SIZE 

CL_INVALID DEVICE QUEUE 


如 果 OpenCL API 执 行 返回 状态 不 是 CL_SUCCESS， 可 以 用 表格 中 的 错误 码 对 比 函 数 返回 状态 ， 
的 问题 。 例 如 : 


1 
un 


1 1 | | | | | | | | | | | 
lialE|IEIEEIEIEIEIEIEE|I|IE ULD 
已 | 一 | 忆 ED 上 ww 一 | 己 Re 


1 
LA 
ULD 


1 
LAn 
~ 


1 
(LA 
(An 


| 
un 
CN 


描 述 
传 入 的 图 像 格 式 描述 符 不 是 合法 值 


设备 不 支持 这 个 图 像 大 小 

传人 的 采样 工具 不 是 合法 值 

传人 了 非法 的 二 进 制程 序 

一 个 或 多 个 构建 选项 不 合法 

传 入 的 程序 不 是 合法 值 

程序 执行 失败 

程序 中 不 存在 指定 的 内 核 

程序 源 代码 中 定义 的 内 核 不 合法 

传 入 的 内 核 不 是 合法 值 

参数 索引 指示 的 参数 对 于 内 核 不 合法 

内 核 参 数值 为 NULL 

参数 大 小 与 参数 数据 类 型 不 匹配 

一 个 或 多 个 内 核 未 赋值 

工作 维度 值 不 合法 

局 部 或 全 局 工作 组 大 小 不 合适 

一 个 或 多 个 工作 项 大 小 超出 了 设备 支持 的 最 大 值 
全 局 偏 移 量 超出 了 所 支持 的 界限 

提供 的 等 待 事件 大 小 不 合法 或 者 其 中 包含 了 非法 


下 ”| 事件 


1 | 
hn 
\ 尼 | 2o 


| 
CN 
一 


| 
O\ 
MD 


1 
CN 
ULD 


| 
CN 
小 


| 
CN 
un 


人 
| 


1 | 
一 
SS 


传人 的 事件 不 是 一 个 合法 值 

执行 命令 导致 出 现 一 个 不 合法 的 操作 

不 是 一 个 有 效 的 OpenGL 内 存 对 象 

指定 的 缓冲 区 大 小 越界 

为 OpenCL 纹理 指定 的 mipmap 级 别 对 于 OpenCL 


对 象 不 合法 

传人 的 全 局 工作 大 小 不 合法 
不 支持 的 上 下 文 属 性 名 称 
图 像 格 式 描述 符 的 值 不 合法 
编译 选项 不 合法 

链接 选项 不 合法 
设备 分 割 数 量 不 合法 
管道 包 大 小 不 合法 


内 核 参数 类 型 (queue_t) 与 传人 参数 类 型 不 一 致 


能 够 很 快 分 析 并 解决 程序 中 


_kernel void SobelProecess (global char *SrcData, 
global char *DstData ) 


内 核 函 数 名 为 SobelProcess， 在 创建 内 核 时 ， 我 们 手 误 输入 如 下 : 


Cl dnt EE 
cl kernel kernel = clCreateKernel (program, "Sobelproecess", 
&Eerr); 


此 时 ，err 的 返回 值 为 CL INVALID_ KERNEL_ NAME (-46) 。 根 据 函 数 返回 执行 状态 err， 我 们 可 以 找 出 OpenCL API 执 行 
是 否 成 功 ， 如 果 不 成 功 ， 根 据 错 误 代 码 分 析出 错误 原因 。 


3.10 ”本 章 小 结 


本 章 详细 介绍 了 编写 一 个 完整 的 OpenCL 程 序 所 需要 的 步骤 ， 以 计算 两 个 向 量 和 的 代码 详细 介绍 每 一 步 所 需要 知道 的 硬件 和 
程序 信息 。 读 者 阅读 完 本 章 后 ， 会 对 OpenCL 程 序 的 基本 步 又， 以 及 各 个 部 分 的 作用 有 所 了 解 ， 为 下 面 各 章 深入 介绍 各 个 部 分 的 
具体 功能 以 及 如 何 使 用 做 好 准备 。 


第 4 章 ”OpenCL C 语 言 


OpenCL C 编 程 语 言 用 来 编写 在 OpenCL 计 算 设备 上 执行 的 内 核 程 序 。OpenCL C 基 于 ISO/IEC 9899:1999 C 语 言 规范 ( 俗 
称 C99) ， 并 针对 并 行 计算 特性 对 语言 做 了 一 些 限制 和 特定 扩展 。 


本 章 将 描述 如 何 使 用 OpenCL C 编 写 内 核 程 序 ， 并 全 面 介 绍 OpenCL C 支 持 的 特性 。 针 对 OpenCL 2.0 中 新 增加 的 管道 和 设 
备 队列 的 特性 做 了 更 为 详细 的 说 明 。 


OpenCL C 是 在 C 语 言语 法 上 的 扩展 ， 其 中 一 个 就 是 对 C 语 言 中 修饰 符 的 扩展 。OpenCL 语 言 中 的 修饰 符 大 致 包含 了 地 址 限定 
符 、 函 数 限定 符 、 人 存储 类 说 明 符 ( 即 static 与 extern， 这 两 个 与 C 语 言 中 的 作用 类 似 ， 以 下 不 再 袭 述 ) ， 以 及 对 象 访问 限定 符 。 
为 了 叙述 方便 ， 以 下 将 限定 符 (qualifier) 与 说 明 符 (specifier) 统称 为 “修饰 符 ” (modifer) 。 下 面 就 详细 来 讲解 这 几 类 修 
饰 符 的 作用 。 对 于 下 列 几 种 修饰 符 都 是 OpenCL 保 留 的 关键 字 ， 不 能 再 做 他 用 。 


4.2 标量 数据 类 型 


标量 和 矢量 ， 对 于 物理 学 家 、 数 学 家 和 编程 人 员 ， 不 同 的 人 会 有 不 同 的 理解 。 所 以 笔者 觉得 很 有 必要 解释 下 OpenCL 中 标量 
和 矢量 数据 类 型 。 


对 于 一 个 标量 数据 ， 每 个 数据 包含 了 单个 数据 类 型 的 值 。 而 矢量 数据 类 似 于 数组 ， 包 售 了 多 个 相同 类 型 的 值 。 一 个 矢量 数据 


就 是 包含 了 多 个 标量 数据 的 数据 集合 。 一 个 矢量 数据 只 能 包含 特定 个 数 的 标量 数据 。 对 一 个 矢量 数据 执行 某 个 操作 ， 如 加 法 操 
作 ， 矢量 内 的 标量 数据 同时 执行 相同 操作 。 


例如 ， 我 们 需要 把 4 个 整数 相 加 。 对 于 标量 数据 操作 ， 可 以 定义 数组 a 和 b， 它 们 分 别 有 4 个 整数 ， 数 组 c 为 相 加 的 结果 ， 相 应 
代码 如 下 : 

int a[4], b[4], c[4] 

for(int i = 0; i < 4; i++) 


clill sali] + BLi]: 


对 于 矢量 数据 操作 ，a、b 和 c 都 为 矢量 数据 ， 每 个 矢量 包含 4 个 标量 数据 ， 相 应 代码 如 下 : 


int4 a bc 
C=a+b; 


矢量 操作 带 来 的 不 仅 仪 是 代码 更 简洁 ， 在 具有 SIMD 处 理 单元 或 VLIW 处 理 的 单元 的 处 理 器 上 ， 处 理 速度 也 相应 地 提高 了 。 
关于 矢量 数据 类 型 ， 将 在 4.3 节 中 详细 讲解 。 


现在 我 们 还 是 回 到 本 节 标 量 数据 类 型 的 内 容 中 ， 在 OpenCL 中 支持 的 标量 数据 类 型 如 表 4-1 所 示 : 


表 4-1 内 建 标量 数据 类 型 


OpenCL 编程 类 型 API 类 型 描 述 
条 件数 据 类 型 ， 可 以 为 true 或 false。 值 为 true 可 以 扩展 为 整数 常量 1 ; 


Om "” 值 为 false 扩展 为 整数 常量 0 

char 有 符号 8 位 整数 

unsigned char, uchar 无 符号 8 位 整数 

short 有 符号 16 位 整数 

unsigned short, ushort 无 符号 16 位 整数 

int 有 符号 的 32 位 整数 

unsigned int, uint 无 符号 的 32 位 整数 

long 有 符号 的 64 位 整数 

unsigned long, ulong 无 符号 的 64 位 整数 

float 32 位 浮 点 数 。float 数据 类 型 必须 符合 IEEE 754 单 精度 存储 格式 

double 64 位 浮 点 数 。double 数据 类 型 必须 符合 IEEE 754 双 精 度 存储 格式 

half 16 位 浮 点 数 。half 数据 类 型 必须 符合 IEEE 754-2008 半 精 度 存储 格式 
无 符号 整数 类 型 ， 这 是 sizeof 操作 符 结 果 的 类 型 。 如 果 设 备 地 址 空间 

size t n/a 为 32 位 ， 则 这 个 值 为 32 位 无 符号 整数 ， 如 果 设备 地 址 空间 为 64 位 ， 则 


这 个 值 为 64 位 无 符号 整数 

有 符号 整数 类 型 ， 这 是 两 个 指针 相 减 结果 的 类 型 。 如 果 设备 地 址 空间 
na 为 32 位 ， 则 这 个 值 为 32 位 无 符号 整数 ， 如 果 设 备 地 址 空间 为 64 位 ， 风 

这 个 值 为 64 位 无 符号 整数 

有 符号 整数 类 型 。 任 何 指向 void 的 有 效 指针 都 可 以 转换 为 这 个 类 型 ， 

然后 还 可 以 再 转换 回 指向 void 的 指针 ， 其 结果 与 原 指 针 比较 是 相等 的 。 


tptr-t 如 果 设 备 地 址 空间 为 32 位 ， 则 这 个 值 为 32 位 无 符号 整数 ， 如 果 设 备 地 
址 空间 为 64 位 ， 则 这 个 值 为 64 位 无 符号 整数 
无 符号 整数 类 型 。 任 何 指向 void 的 有 效 指针 都 可 以 转换 为 这 个 类 型 ， 
下 然后 还 可 以 再 转换 回 指向 void 的 指针 ， 其 结果 与 原 指针 比较 是 相等 的 。 
如 果 设 备 地 址 空间 为 32 位 ， 则 这 个 值 为 32 位 无 符号 整数 ; 如果 设备 地 
址 空间 为 64 位 ， 则 这 个 值 为 64 位 无 符号 整数 
void 无 类 型 数据 


OpenCL 支 持 的 标量 数据 类 型 是 比较 简单 的 ， 功 能 与 C/C+ + 中 的 数据 类 型 是 一 样 。 大 多 数 内 置 标量 数据 类 型 在 OpenCL 
API (和 头 文 件 中 ) 被 声明 为 可 供 程序 使 用 的 适当 类 型 。 对 于 表 4-1 中 m/a 的 类 型 ， 是 无 法 确保 计算 设备 端的 数据 类 型 所 占 字 节 数 
能 与 主机 端 取得 一 致 。 就 拿 size_t 类 型 来 说 ， 如 果 计算 设备 当前 为 64 位 地 址 空间 ， 而 主机 端 为 32 位 地 址 空间 ， 那 么 设备 端的 
Size_t 类 型 宽度 为 8 字 节 (64 位 ) ， 而 主机 端 则 是 4 字 节 (32 位 ) ， 因 此 两 者 此 时 无 法 兼容 。 所 以 我 们 要 把 主机 端的 参数 传递 到 内 
核 函 数 上 时 ， 尽 量 避 免 使 用 表 4-1 中 m/a 的 数据 类 型 ， 而 是 使 用 可 确定 兼容 的 数据 类 型 。 


这 里 需要 强调 的 是 ， 双 精度 浮 点 数 是 一 个 可 选 数据 类 型 。 因 为 支持 OpenCL 的 设备 很 多 ， 但 不 是 所 有 的 设备 都 支持 双 精 度 浮 
点 数 ， 如 高 通 Adreno GPU。 可 以 查询 OpenCL 设 备 CL_ DEVICE_DOUBLE FP_CONFIG 属 性 信息 ， 如 果 结 果 为 0， 则 说 明 设 备 不 
支持 双 精 度 。 


对 于 支持 双 精 度 浮 点 运算 的 设备 ， 为 了 在 内 核 溺 数 中 启用 这 个 功能 ， 可 以 在 内 核 代码 最 上 方 添加 如 下 语句 : 


#pragma OPENCL EXTENSION cl khr fp64:enable 


添加 上 述 语句 后 ， 在 内 核 函 数 中 可 以 定义 双 精 度 浮 点 数 变量 ， 可 以 对 这 些 变量 进行 相应 的 操作 。 例 如 : 


#pragma OPENCL EXTENSION cl khr fp64:enable 


kernel void DoubleProcess (global double *A, global double *B, 


global double *C) 
{ 


int ID = get global id(0); 
double temp = 0.35; 
C[ID] = temp * A[ID] + BIID]; 


出 于 计算 精度 要 求 ， 我 们 


会 声明 一 些 变量 为 双 精 度 浮 点 数 。 但 是 对 于 OpenCL 设 备 而 言 ， 相 比 于 处 理 单 精 度 浮 点 数 能 力 ， 处 


理 双 精度 浮 点 数 能 力 要 更 弱 。 例 如 ，AMD FirePro W9100 GPU， 理 论 双 精度 与 单 精度 峰值 计算 能 力 比 为 2.62/5.24=1/2; 


NVIDIA Tesla K80 GPU， 理 论 双 精 度 与 单 精 度 峰 值 计算 能 力 比 为 2.91/8.74=1/3。 


度 浮 点 数 ， 速 度 会 比 单 精度 慢 2~3 倍 。 
时 ， 中 间 临 时 变量 声明 为 双 精 度 浮 点 数 ， 


所 以 笔者 建议 ， 在 不 需要 高 精度 的 情况 下 ， 使 用 单 精度 浮 点 数 ; 在 迫 
这 么 做 的 目的 就 是 尽 可 能 地 减少 设备 对 双 精 度 浮 点 数 的 处 理 ， 提 升 整个 程序 性 能 。 


通俗 的 理解 ， 对 于 上 述 设 备 ， 如 果 处 理 双 精 
得 已 需要 更 高 精度 


下 面 的 例子 展示 了 如 何 判断 设备 是 否 支持 双 精 度 浮 点 数 ， 然 后 利用 宏 定 义 选择 内 核 部 分 代码 。 


主机 端 代码 : 


cl device fp config DeviceDouble; 


int Doubleflag;// 1: 设 备 支 持 双 精 度 ;0: 设 备 不 支持 双 精 度 … 


Doubleflag = 1; 

// 查询 设备 CL DEVICE DOUBI 

// 设备 不 支持 双 精 度 浮 点 数 

rr = ClGetDeviceInfo (device, CL DEVICE DOUBI 
sizeof (cl device fp config), 

&DeviceDouble, NULL); 

if(0 DeviceDouble) 


Doubleflag = 0; 
if(1 == Doubleflag) 


// 设备 支持 双 精 度 浮上 点数， 编译 时 添加 FP 64 窑 


clBuildProgram(program, 1, &device, "-D FP 64", 
else 

// 设备 不 支持 双 精 度 浮 点 数 , 采 用 默认 编译 选项 

clBuildProgram(program, 1, &device, NULL, NULL, 


内 核 代码 : 


ifdef FP 64 
pragma OPENCI 
endif 

kernel void DoubleTest (global float *a, global float 
global float *out) 


EXTENSION cl khr fp64:enable 


ifdef FP 64 
double c = (double) (*a/*b); 
*out= (float)c; 

else 
*OU 上 = (*a) * (*D) 

endif 


局 FP CONFIG 属 性 ,如 果 返 回 值 为 0, 则 


E FP CONFIG, 


NULL, NULL) 


NULL) 


xb， 


上 述 代 码 ， 在 主机 端 查询 设备 的 CL_DEVICE_DOUBLE_FP_CONFIG 属 性 ， 如 果 返 回 值 为 1， 说 明 设备 支持 双 精 度 浮 点 数 ， 


如 果 返 
FP_64 宏 定义 ， 这 样 使 得 cl_khr fp64 扩 展 在 内 核 代码 中 有 效 。 


= 
里 。 


回 0， 设 备 不 支持 双 精 度 浮 点 数 。 如 果 设 备 支 持 双 精 度 ， 在 编译 内 核 程 序 时 添加 编译 选项 “-D FP_64”， 


开启 内 核 代码 中 


一 旦 cl_khr fp64 扩 展 有 效 ， 就 可 以 在 程序 中 定义 双 精 度 浮 点 数 变 


4.3 ”矢量 数据 类 型 


在 4.2 节 中 ， 我 们 对 标量 数据 进行 了 解释 。 现 在 我 们 就 看 下 在 OpenCL 中 支持 的 矢量 数据 类 型 ， 如 表 4-2 所 示 : 


表 4-2 中 ， 变 量 类 型 后 面 是 一 个 n 来 定义 矢量 中 的 元 素 个 数 ， 对 所 有 矢量 数据 类 型 ,支持 的 n 值 包括 2、3、4、8 和 16。 另 
外 ，double 类 型 的 矢量 数据 也 是 需要 设备 支持 双 精 度 时 才 可 用 。 


表 4-2 ”内 建 矢量 数据 类 型 


charn n 个 8 位 有 符号 整数 值 的 矢量 
ucharn n 个 8 位 无 符号 整数 值 的 矢量 
shortn n 个 16 位 有 符号 整数 值 的 矢量 
ushortn n 个 16 位 无 符号 整数 值 的 矢量 
intn n 个 32 位 有 符号 整数 值 的 矢量 
uintn n 个 32 位 无 符号 整数 值 的 矢量 
longn n 个 64 位 有 符号 整数 值 的 矢量 
ulongn n 个 64 位 无 符号 整数 值 的 矢量 
floatn n 个 32 位 浮 点 数值 的 矢量 
doublen n 个 64 位 浮 点 数值 的 矢量 


声明 为 一 个 标量 或 矢量 数据 类 型 的 变量 要 按 所 用 数据 类 型 的 大 小 〈 字 节 数 ) 对 齐 。 内 置 的 数据 类 型 大 小 按 2 的 窜 字 节 数 对 
齐 。 如 果 一 个 内 置 数据 类 型 的 大 小 不 是 2 的 究 ， 则 要 按 紧 邻 的 下 一 个 2 的 窜 值 对 齐 。 例 如 ， 一 个 float4 变 量 要 按 16 字 节 边 界 对 
齐 ，char2 变 量 要 按 2 字 节 边界 对 齐 。 一 个 包含 3 个 分 量 的 矢量 数据 类 型 ， 这 个 数据 类 型 的 大 小 为 4*sizeof (分 量 ) ， 这 说 明了 包 
含 3 个 分 量 的 矢量 数据 类 型 要 按 4*sizeof (分 量 ) 边界 对 齐 。 


4.4 运算 符 


OpenC[L 支 持 的 运算 符 在 表 4-5 中 列 出 。 


表 4-5 OpenCL 运 算 符 


运算 符 类 型 运算 符 符 号 及 描述 
加 (+) 
减 (-) 
算术 运算 符 乘 (*) 
除 (7) 


运算 符 类 型 


关系 运算 符 


位 运算 符 


逻辑 运算 符 


条 件 选 择 运 算 符 


移 位 运算 符 


一 元 运算 符 


赋值 运算 符 


(1) 算术 运算 符 


运算 符 符号 及 描述 


不 等 于 (!=) 

位 与 (&) 

位 或 (|) 

异 或 (人 ^) 

韭 (~) 

与 (&&) 

或 (| 

三 目 选 择 运 算 符 (?:) 
右 移 (>>) 

左 移 (<<) 

算术 正 负 符号 (+ 或 -) 
自 加 (++) 

自 减 (---) 

类 型 长 度 ，sizeof 

非 (!) 

逗号 操作 符 (,) 

取 地 址 和 间接 运算 符 (&,*) 


v= Ey 2 


加 、 减 、 乘 和 除 可 以 用 于 内 建 整 数 、 浮 点 标量 和 矢量 数据 类 型 。 取 余 只 能 用 于 整数 标量 和 整数 矢量 数据 类 型 。 如 果 操 作 数 有 
相同 类 型 (整数 或 浮 点 数 ) ， 算 术 运 算 符 的 结果 类 型 与 操作 数 一 样 。 操 作 数 为 整数 与 浮 点 数 ， 则 返回 值 为 浮 点 数 类 型 。 操 作 数 一 
个 为 矢量 数据 ， 另 一 个 为 标量 数据 时 ， 这 个 标量 操作 数 会 转换 为 矢量 操作 数 使 用 的 元 素 类 型 。 例 如 : 


int4 vec a = (int4) (1, 2, 3, 4); 


int flag = 3; 


int vec b = vec a * flag; // vec b=(1,2,3,4)* (3,3,3,3)=(3,6,9,12) 


(2) 关系 和 相等 运算 符 


关系 和 相等 运算 符 可 以 用 于 标量 和 矢 


这 两 种 运算 符 的 结果 都 是 一 个 整数 标量 或 矢量 类 型 。 如 果 两 个 操作 数 都 是 标 


量 ， 则 结果 为 有 符号 的 整 型 标量 。 如 果 操 作 数 是 charn 或 ucharn， 则 结果 为 charn; 如 果 操作 数 是 shortn 或 ushortn， 则 结果 为 
shortn; 如 果 操 作 数 为 intn、uintn 或 floatn， 则 结果 为 intn。 如 果 操 作 数 为 longn、ulongn 或 doublen， 则 结果 为 longn。 如 果 
操作 数 一 个 为 矢量 数据 ， 另 一 个 为 标量 数据 时 ， 这 个 标量 操作 数 会 转换 为 矢量 操作 数 使 用 的 元 素 类 型 。 


对 于 标量 类 型 ， 如 果 关 系 和 相等 运算 符 为 假 ， 则 结果 为 0， 反 之 结果 为 1。 对 于 矢量 类 型 ， 如 果 关 系 和 相等 运算 符 为 假 ， 则 


结果 为 0， 反 之 结果 为 -1。 


(3) 位 运算 符 


除了 浮 点 类 型 标量 和 矢量 ,位 运算 符 可 以 用 于 内 建 的 其 他 所 有 标量 和 矢量 数据 类 型 。 如 果 操 作 数 有 相同 类 型 ,结果 类 型 与 操 
作 数 一 样 。 如 果 操 作 数 一 个 为 矢量 数据 ， 另 一 个 为 标量 数据 时 ， 这 个 标量 操作 数 会 转换 为 矢量 操作 数 使 用 的 元 素 类 型 。 


(4) 逻辑 运算 符 


逻辑 运算 符 可 以 用 于 所 有 的 标量 和 矢量 数据 类 型 。 如 果 操 作 数 是 charn 或 ucharn， 则 结果 为 charn; 如 果 操 作 数 是 shortn 或 
ushortn， 则 结果 为 shortn; 如 果 操 作 数 为 intn、uintn 或 floatn ， 则 结果 为 intn。 如 果 操 作 数 为 ongn、ulongn 或 doublen ， 则 
结果 为 ongn。 如 果 操 作 数 一 个 为 矢量 数据 ， 另 一 个 为 标量 数据 时 ， 这 个 标量 操作 数 会 转换 为 矢量 操作 数 使 用 的 元 素 类 型 。 


对 于 标量 ， 如 果 指定 关系 为 假 ， 则 结果 为 0%， 反 之 结果 为 1。 对 于 矢量 ， 如 果 指 定 关 系 为 真 ， 则 结果 为 0， 反 之 为 -1。 
(5) 条 件 选择 运算 符 


三 目 选择 运算 符 作 用 于 三 个 表达 式 (expr1?expr2:expr3) 。 运 算 符 计算 第 一 个 表达 式 expr1，expr1 可 以 为 标量 或 矢量 数据 
型 ， 但 不 能 是 内 置 浮 点 数 。 如 果 操 作 数 是 标量 ， 当 expr1 不 为 零 时 ， 结 果 为 第 二 个 表达 式 exp2; 如 果 expr1 等 于 0 时 ， 结 果 为 
三 个 表达 式 expr3。 如 果 操 作 数 为 矢量 ， 则 会 依次 判断 expr1 中 矢量 分 量 结果 ， 如 果 expr1 中 某 个 矢量 分 量 结果 的 最 高 有 效 位 为 
则 结果 为 第 二 个 表达 式 expr2 中 相同 位 置 的 矢量 分 量 结果 ; 如 果 expr1 中 某 个 分 量 结果 的 最 高 有 效 位 为 0， 则 结果 为 第 三 个 表 
达 式 expr3 中 相同 位 置 的 矢量 分 量 结果 。 例 如 : 


类 
第 
1, 


int4 vec a = (int4) (4, 3, 2, 1); 
int4 vec b = (int4) (1, 2, 3, 4); 
int4 vec Cc = (vec a > vec b) veca : vec b; 
// vec C.x=(Vvec a.x>vec b.x 
// vec c.y=(vec a.y>vec b.y 
// vec_c.z=(vec a.z>Vec b.z 
// vec CcC.w=(vec a.w>vec b.w 
// vec c=(4,3,3,4) 
vec a=(in4) (0x8000 0000,100,-1,0); 
vec c=(in4) (=1,=2,=3,=4); 
vec C=vec a vec bi:vec c; 
// vec c=(1,-2,3,-4); 


Vec a.x:vec b.x 
vec a.y:Vec b.y 
Vec a.Z:vec b.z 
Vec a.wivec b.w 


( ) 
( ) 
( ) 
( ) 


(6) 移 位 运算 符 


除了 浮 点 类 型 标量 和 矢量 ， 移 位 运算 符 可 以 用 于 内 建 的 其 他 所 有 标量 和 矢量 数据 类 型 。 如 果 第 一 个 操作 符 为 标量 ， 则 最 右 操 
作 数 必须 为 一 个 标量 。 如 果 第 一 个 操作 数 是 一 个 矢量 ， 则 最 右 操 作 数 可 以 是 矢量 也 可 以 是 标量 。 对 于 矢量 ,依次 移 位 矢量 中 的 所 
有 分 量 。 


(7) 一 元 运算 符 


算术 一 元 运算 符 (+ 和 -) 用 于 内 置 标 量 和 矢量 数据 。 


除了 浮 点 类 型 的 标量 和 矢量 ， 自 加 和 自 减 运算 符 可 以 用 于 其 他 所 有 标量 和 矢量 数据 类 型 。 对 于 矢量 数据 ， 会 对 矢量 中 所 有 分 
量 执行 相应 的 自 加 或 自 减 运算 。 例 如 : 


int4 vec a = (int4) ( 


2 i 于 
vec att; // vec a=(5,4, 


372) 


逻辑 非 操作 可 以 用 于 所 有 标量 和 矢量 数据 类 型 。 如 果 操 作 数 是 charn 或 ucharn， 则 结果 为 charn; 如 果 操 作 数 是 shortn 或 
ushortn， 则 结果 为 shortn; 如 果 操 作 数 为 intn、uintn 或 floatn ， 则 结果 为 intn。 如 果 操 作 数 为 ongn、ulongn 或 doublen ， 则 
结果 为 longn。 对 于 标量 ， 如 果 指 定 关系 为 假 ， 则 结果 为 0， 反 之 结果 为 1。 对 于 矢量 ， 如 果 指 定 关系 为 真 ， 则 结果 为 0， 反 之 为 - 
1。 


sizeof 运 算 符 会 得 到 操作 数 的 字 节 大 小 ， 包 含 为 了 对 齐 而 增加 的 空间 。 对 于 标量 数据 ， 如 果 操 作 数 为 char 或 uchar， 结 果 为 
1; 如 果 操 作 数 为 short、ushort 或 shart， 结 果 为 2; 如 果 操 作 数 为 int、uint 或 float， 结 果 为 4; 如 果 操 作 数 为 ong、ulong 或 
double， 结 果 为 8。 对 于 n 不 为 3 的 矢量 数据 ， 结 果 为 n* 矢 量 分 量 大 小 。 而 n 为 3 的 矢量 数据 ， 为 了 满足 对 齐 要 求 ， 结 果 为 4* 舌 量 
分 量 大 小 。 


一 元 运算 符 (*) 指向 一 个 对 象 ， 则 结果 为 指向 该 对 象 的 左 值 。 如 果 操 作 数 指向 “ 某 个 类 型 的 指针 ” ， 则 结果 为 该 类 型 。 


一 元 运算 符 (&) 返回 操作 数 的 地 址 。 


4.5 工作 项 布局 函数 


在 2.2 节 中 ， 我 们 介绍 了 OpenCL 平 台 模 型 。 但 是 对 于 硬件 上 的 两 个 概念 : 计算 单元 、 处 理 单元 ， 并 未 与 2.3 节 中 介绍 的 软件 
上 的 两 个 概念 : 工作 项 、 工 作 组 的 关系 做 详细 讲解 。 现 在 通过 一 个 例子 来 类 比 这 几 者 之 间 的 天 系 。 

某 个 学 校 高 一 的 年 级 ， 这 个 年 级 当中 会 有 多 个 班级 ， 我 们 假设 班级 个 数 为 8。 高 一 年 级 都 有 计算 机 课程 ， 会 依次 去 计算 机 机 
房 里 上 机 ， 计 算 机 机 房 里 会 有 电脑 ， 我 们 假设 电脑 数 为 32。 每 个 在 机 房 里 的 同学 根据 机 房 里 黑板 上 老师 布置 的 任务 ， 都 在 完成 
属于 自己 的 任务 。 


对 于 这 样 一 个 场景 中 的 事物 与 OpenCL 中 几 个 概念 的 类 比 为 : 工作 项 就 好 比 每 位 同学 ， 工 作 组 就 好 比 一 个 班级 ， 多 个 同学 组 
成 一 个 班级 ， 多 个 工作 项 也 组 成 一 个 工作 组 ; 机 房 里 的 电脑 就 好 比 处 理 单 元 ， 机 房 就 好 比 计算 单元 。 多 个 类 似 机 房 的 计算 单元 构 
成 了 一 个 OpenCL 设 备 。 


上 述 例子 就 很 好 地 把 OpenCL 软 件 层面 的 工作 项 和 工作 组 与 OpenCL 设 备 硬 件 层面 的 处 理 单元 和 计算 单元 联系 起 来 。 


在 clEnqueueNDRangeKernel() 水 数 中 ， 参 数 指定 了 内 核 执行 工作 项 的 维度 、 每 个 维度 上 的 工作 项 大 小 和 每 个 维度 上 每 个 
工作 组 里 的 工作 项 大 小 。 对 于 每 个 工作 项 ， 需 要 通过 一 个 专属 于 自己 的 ID 来 执行 与 其 他 工作 项 不 同 的 任务 ， 这 个 ID 在 全 局 工作 
项 中 是 唯一 的 ， 在 一 个 工作 组 内 也 是 唯一 的 。 在 本 节 中 ， 我 们 分 别 从 全 局 工作 项 ID 和 工作 组 中 工作 项 ID 来 讲述 如 何 获得 这 个 唯 
一 的 ID。 


4.6 数据 拷贝 操作 


在 之 前 章节 中 ， 我 们 讲述 了 OpenCL 设 备 分 为 多 种 不 同人 存储器， 能 否 高 效 地 利用 这 些 大 小 不 同 ， 读 写 速度 也 不 同 的 存储 器 对 
我 们 程序 性 能 有 很 大 影响 。 在 本 节 中 ， 我 们 分 为 矢量 数据 拷贝 以 及 异步 拷贝 和 预 取 来 讲解 。 
4.7 浮 点 阔 数 


笔者 根据 函数 的 输入 和 输出 参数 的 类 型 ， 把 OpenCL 中 一 些 内 建 函 数 分 为 浮 点 函数 和 整数 函数 。 本 节 中 我 们 就 分 析 浮 点 函 
数 。 在 开始 讲解 浮 点 函数 之 前 ， 我 们 需要 对 浮 点 函数 中 参数 及 返回 值 的 数据 类 型 做 一 个 约定 ， 我 们 约定 : 使 用 通用 类 型 名 


gentype 指 示 这 些 数 学 函数 参数 可 以 取 float、float2、float3、float4、float8、float16、double、double2、double3、 
double4、double8 或 double16 数 据 类 型 ;使 用 通用 类 型 名 gentypef 指 示 这 些 数 学 函数 参数 可 以 取 float、float2、float3、 
float4、float8、float16 数 据 类 型 ;使 用 通用 类 型 名 gentyped 指 示 这 些 数 学 函数 参数 可 以 取 double、double2、double3、 
double4、double8 或 double16 数 据 类 型 。 


4.8 ”整数 函数 


在 例如 密码 破解 、 生 物 信息 学 领域 ， 处 理 的 数据 大 部 分 是 整数 数据 。 在 OpenCL 中 也 提供 了 很 多 针对 整数 处 理 的 函数 ， 详 细 
见 表 4-12。 在 开始 介绍 这 些 函 数 之 前 ， 我 们 对 表格 中 的 数据 类 型 做 一 些 约定 : 使 用 通用 类 型 名 gentype 指 示 这 些 数学 函数 参数 可 
以 取 uchar、char{2|3|4|8|16}、ushort、short{2|3|4|8|16}、uint、int{2|3|4|8|16}、ulong、long{2|3|4|8|16}; 使 用 通用 类 型 名 
ugentype 来 表示 gentype 的 无 符号 版 本 ; 使 用 通用 类 型 名 sgentype 来 表示 一 个 标量 数据 。 


表 4-12 内 建 数学 函数 


ugentype abs (gentype x) 

ugentype abs diff (gentype x, gentype y) 
gentype add_ sat (gentype x, gentype y) 
gentype hadd (gentype x, gentype y) 
gentype rhadd (gentype x, gentype y) 
gentype clamp (gentype xX, 

gentype minval, 

gentype maxval) 

gentype clamp (gentype x, 

sgentype minval, 

sgentype maxval) 

gentype clz (gentype x) 

gentype ctz (gentype x) 

gentype mad hi (gentype a, 

gentype b, gentype c) 

gentype mad sat (gentype a, 

gentype b, gentype c) 

gentype max (gentype x, gentype y) 
gentype max (gentype x, sgentype y) 
gentype min (gentype x, gentype y) 
gentype min (gentype x, sgentype y) 
gentype mul_ hi (gentype x, gentype y) 


gentype rotate (gentype v, gentype i) 


gentype sub_sat (gentype x, gentype y) 
short upsample (char hi, uchar 10) 
ushort upsample (uchar hi, uchar 10) 
shortn upsample (charn hi, ucharn 10) 
ushortn upsample (ucharn hi, ucharn 10) 
int upsample (short hi, ushort 10) 

uint upsample (ushort hi, ushort lo) 
intn upsample (Shortn hi, ushortn 10) 
uintn upsample (ushortn hi, ushortn 10) 
long upsample (int hi, uint 10) 

ulong upsample (uint hi, uint lo) 

longn upsample (intn hi, uintn 10) 
ulongn upsample (uintn hi, uintn 10) 


gentype popcount (gentype x) 
gentype mad24 (gentype xX, 
gentype y, gentype Z) 


gentype mul24 (gentype x, gentype y) 


对 于 执行 整数 操作 ， 我 们 首先 会 想到 的 是 如 果 计 算 结果 所 需 空间 大 于 存放 结果 的 变量 空间 限制 


位 


32 


数 


描 述 
返回 |x| 
返回 无 模 溢出 的 |x-y| 
返回 饱和 结果 的 x+y 
返回 (x+ty)>>1， 中 间 结 果 无 模 溢 出 
返回 (xty+1)>>1， 中 间 结 果 无 模 溢 出 


返回 min(max(x, minval), maxval) 


返回 x 中 前 导 0 的 位 数 ， 从 最 高 有 效 位 开始 


回 x 中 尾随 0 的 个 数 


返 

返回 mul hi(a, b) + c 
返回 饱和 结果 的 axb+c 

如 果 x<f， 返 回 y; 否则 返回 x 


如 果 y<x， 


计算 xx*y， 返 回 乘 积 的 高 位 半 值 

对 于 v 中 的 各 个 元 素 ， 使 各 位 按 i 中 相应 元 
数 左 移 。 元 素 左 边 溢 出 的 位 再 从 右边 移 人 
返回 饱和 值 的 x-y 


返回 y; 否则 返回 y 


素 给 出 的 


result[i] = ((short)hi[il << 8) | lo[ilresult[i] = ((ushort) 
hi[li] << 8) | lo[ilresult[i] = ((int)hili] << 16) | lo[ijresult[i] = 
((uint)hi[il << 16) | lolilresult[i] = ((long)hili] << 32) | lo[i] 
result[i] = ((ulong)hi[i] << 32) | lo[i] 


返回 x 中 为 零 元 位 个 数 


将 两 个 24 位 整数 值 x 和 y 相 乘 ， 把 32 为 整数 结果 与 


位 整数 z 相 加 


将 两 个 24 位 整数 x 和 y 相 乘 。 尽 管 x 和 y 是 32 位 整 


但 是 只 使 用 其 低 24 位 完成 乘法 运算 


这 种 情况 称 为 溢出 。 对 于 有 


些 设备 ， 会 有 专门 的 标志 位 来 记录 溢出 情况 ， 但 是 在 OpenCL 中 没有 此 标志 位 。 例 如 ， 我 们 把 两 个 有 符号 int 整 数 相 加 ， 结 果 


能 会 超出 int 最 大 值 使 得 结果 为 负 值 ， 溢 出 位 使 得 结果 为 负 值 。 


add sat0 和 sub_sat() 函 数 可 以 接受 结果 溢出 ， 它 们 会 把 结果 设置 为 能 表示 的 最 大 值 。 例 如 ， 对 于 32 位 int， 最 大 值 为 


Ox7FFFFFFF, 


例如 ,假设 x，y，z 都 是 int 类 型 数据 ， 其 中 x=0x78888888, y=0x11111111, z=-0x21111111。 


(x+y) 实际 的 值 为 


0x89999999， (x-z) 实际 的 值 为 0x99999999。 但 是 对 于 add sat (x,y) =0x7FFFFFFF，sub sat (x,z) =0x7FFFFFFF。 这 就 


是 因为 实际 的 值 超出 了 32 位 int 所 能 表示 的 最 大 值 ， 产 生 溢出 情况 ， 函 数 会 把 结果 设置 为 最 大 值 。 
对 于 乘法 操作 ，mul24(0 利 用 低 24 位 来 计算 乘法 ， 这 加 快 了 计算 速度 ， 返 回 的 结果 是 32 位 。 例 如 


int x = 0x00711111; 
int y = 0x00722222; 
int c = mul24 (x, y); 
int d = mul hi (x, y) 


计算 出 来 的 c 值 为 0xACDA8642， 但 是 实际 真实 结果 是 0x3268ACDA8642。 所 以 在 我 们 使 用 mul24() 函 数 来 加 快 计 算 速 度 
时 ， 需 要 注意 输入 参数 有 效 位 要 小 于 24 位 ， 计 算出 来 的 结果 有 效 位 同时 要 小 于 32 位 。 


如 果 最 终结 果 超 过 32 位 ， 那 我 们 该 如 何 处 理 呢 ? 我 们 先 看 d 值 计算 结果 为 0x3268，mul_hi(0 函 数 返 回 值 是 返回 乘积 结果 的 乘 
积 的 高 位 半 值 ， 也 就 是 返回 超出 有 效 表示 位 之 外 的 结果 。 上 述 例子 也 给 了 我 们 一 点 启示 ， 那 就 是 对 于 乘法 操作 ， 我 们 要 获得 一 个 
全 部 的 乘积 ， 可 以 使 用 mul_hi(0 函 数 ， 并 结合 乘法 操作 。 高 位 值 通过 mul_hi(0 函 数 获得 ， 有 效 范围 内 的 值 通过 乘法 直接 获得 。 


4.9 ”关系 国 数 


OpenCL C 提 供 了 一 些 内 建 的 关系 国 数 ， 通 过 这 些 关 系 国 数 ， 我 们 可 以 判断 两 个 标量 或 矢量 间 的 大 小 关系 ; 我 们 也 可 以 判断 
输入 的 参数 变量 是 否 为 无 限 值 、 是 否 为 有 限 值 等 操作 。 在 开始 讲解 这 些 关 系 函 数 之 前 ， 我 们 对 表格 中 的 数据 类 型 做 一 些 约定 : 用 
通用 类 型 名 gentype 指 示 这 些 数学 函数 参数 可 以 取 uchar、char{t2|3|4|8|16}、ushort、short{2|3|4|8|16}、uintint{2|3|4|8|16}、 
ulong、long{2|3|4|8|16}、float、float{2|3|4|8|16}、double 和 double{2|3|4|8|16}。 通 用 类 型 igentype 表 示 的 数据 类 型 为 : 
uchar、char{2|3|4|8|16}、ushort、short{2|3|4|8|16}、uint、int{2|3|4|8|16}、ulong、long{2|3|4|8|16}。 通 用 类 型 igentype 表 
示 的 数据 类 型 为 : uchar、uchar{2|3|4|8|16}、ushort、ushort{2|3|4|8|16}、uint、uint{2|3|4|8|16}、ulong、 
ulong{2|3|4|8|16}). 


表 4-13 内 建 关 系 函 数 


int isequal (float x, float y) 

intn isequal (floatn x, floatn y) 

int isequal (double x, double y) 

longn isequal (doublen x, doublen y) 

int isnotequal (float x, float y) 

intn isnotequal (floatn x, floatn y) 

int isnotequal (double x, double y) 
longn isnotequal (doublen x, doublen y) 
int isgreater (float x, float y) 

intn isgreater (floatn x, floatn y) 

int isgreater (double x, double y) 

longn isgreater (doublen x, doublen y) 
int isgreaterequal (float x, float y) 

intn isgreaterequal (floatn x, floatn y) 
int isgreaterequal (double x, double y) 
longn isgreaterequal (doublen x, doublen y) 
int isless (float x, float y) 

intn isless (floatn x, floatn y) 

int isless (double x, double y) 

longn isless (doublen x, doublen y) 

int islessequal (float x, float y) 

intn islessequal (floatn x, floatn y) 

int islessequal (double x, double y) 
longn islessequal (doublen x, doublen y) 
int islessgreater (float x, float y) 

intn islessgreater (floatn x, floatn y) 

int islessgreater (double x, double y) 
longn islessgreater (doublen x, doublen y) 
int isfinite (float) intn isfinite (floatn) 
int isfinite (double) longn isfinite (doublen) 
int isinf (float) 

intn isinf (floatn) 

int isinf (double) 

longn isinf (doublen) 

int isnan (float) intn isnan (floatn) 

int isnan (double) longn isnan (doublen) 
int isnormal (float) 

intn isnormal (floatn) 

int isnormal (double) 

longn isnormal (doublen) 


描 述 


返回 按 分 量 比较 x==y 的 结果 


返回 按 分 量 比 较 x!=y 的 结果 


返回 按 分 量 比较 x>y 的 结 


返回 按 分 量 比较 x 三 y 的 结果 


返回 按 分 量 比 较 x<y 的 结果 


返回 按 分 量 比较 x < y 的 结果 


返回 按 分 量 比 较 (x<y)jllCe>y) 的 结果 


测试 是 否 为 有 限 值 


测试 是 否 为 无 限 值 ( 正 无 穷 或 负 无 穷 ) 


测试 是 否 为 NaN 


测试 是 否 为 正常 值 


函 数 描 述 
int isordered (float x, float y) 
intn isordered (floatn x, floatn y) 测试 参数 是 否 有 序 。isordered 取 参 数 x 和 y， 返 回 结 
int isordered (double x, double y) 果 isequal(x,x) &&isequal(y,y) 


longn isordered (doublen x, doublen y) 


int isunordered (float x, float y) 


intn isunordered (floatn x, floatn y) 测试 参数 是 否 无 序 。isordered 取 参 数 x 和 y， 如 果 
int isunordered (double x, double y) x 或 y 为 NaN， 则 返回 非 0 值 ， 否则 返回 0 

longn isunordered (doublen x, doublen y) 

int signbit (float) 测试 符号 位 。 对 于 标量 ， 如 果 设 置 了 浮 点 数 的 符号 位 ， 
intn signbit (floatn) 返回 返回 1; 否则 返回 0。 对 于 矢量 则 测试 每 个 分 量 的 符 
int signbit (double) 号 位 ， 如 果 设 置 了 分 量 中 浮 点 数 符号 位 ， 返 回 1 ; 否则 
longn signbit (doublen) 返回 0 


如 果 x 中 任意 分 量 的 最 高 有 效 位 设置 为 1， 则 返回 1 ; 
否则 返回 0 

如 果 x 中 所 有 分 量 的 最 高 有 效 位 设置 为 1， 则 返回 1 ; 
否则 返回 0 


int any (igentype x) 


int all (igentype x) 


t bitselect t > S 
Spe ee se 对 于 结果 ， 每 个 比特 位 是 一 一 如 果 e 中 相应 比特 为 0， 


CE 则 是 a 中 相应 比特 值 ， 否 则 为 b 中 相应 比特 值 
gentype c¢) 

gentype select (gentype a, 

gentype b, 对 于 矢量 类 型 的 各 个 分 量 : 

igentype c) result[i=ifC[i 已 设置 最 高 有 效 位 ? bfi]l:a[j 
gentype select (gentype a， 对 于 标量 类 型 ; 

gentype b， result=c?b:a 


ugentype c) 


上 述 关系 函数 ， 通 过 表格 中 的 描述 很 容易 知道 其 作用 ， 笔 者 就 不 再 展开 讲述 。 但 是 笔者 还 是 要 把 bitselect0 函 数 作 用 列举 一 
个 例子 。 


在 笔者 碰 到 的 OpenCL 设 备 中 ， 曾 经 遇 到 某 个 厂家 的 OpenCL 设 备 在 计算 MD5 中 的 如 下 处 理 时 : 


#define F(x, y, 2z) (((x) & (y)) | (~(x) & (z))) 


clBuildProgram() 函 数 采 用 默认 的 编译 选项 ， 计 算出 来 的 结果 是 错误 的 。 而 如 果 clBuildProgram () 函 数 采 用 “-cl-opt- 
disable” 编 译 选 项 时 ， 结 果 是 正确 的 。OpenCL 编 译 器 在 优化 上 述 代码 过 程 中 出 错 了 ! 上 述 操作 是 MD5 计 算 中 的 关键 步骤 ， 从 
编程 角度 没 办 法 通过 其 他 编程 方式 实现 。 庆 幸 的 是 ， 在 OpenCL 中 提供 了 bitselect0 函 数 ， 通 过 该 函数 可 以 实现 上 述 功 能 。 采 
bitselect(0 阔 数 代码 如 下 : 


#define F(x,y,z) bitselect (z,y,x) 


对 于 bitselect(0 函 数 ， 计 算 示 意图 如 图 4-2 所 示 : 


uchar2 mask= (uchar2) (Oxaa,0x55) 


uchar2 inputl 


> 
2 > NN input2 
AAA 


SS 


uchar2 output= (uchar2) (OxA6,0x55) 


output=bitselect (intputl.intput2,mask) 
图 4-2 bitselect 计 算 示 意图 


而 对 于 select( 函 数 ， 计 算 示 意图 如 图 4-3 所 示 : 


int4 mask= (int4) (0.-1.-1.-1) 


最 高 有 效 位 1 
int4 inputl CR input2 
123 4 号 局 


1 和 省 
int4 output 


output=select (intputl.intput2.mask) 


图 4-3 select 计算 示意 图 


4.10 ”杂项 天 量 函 数 


在 4.9 节 中 ， 我 们 着 重 举例 来 说 明 bitselect0 和 select() 函 数 。 在 OpenCL 中 ， 还 有 一 种 通过 掩 码 (mask) 来 确定 输出 结果 的 


消 数 ， 这 个 遂 数 就 是 shuffle0 函 数 。 在 开始 讲解 shuffle() 遂 数 之 前 ,我们 对 函数 参数 数据 类 型 做 一 些 约定 : 用 通用 类 型 名 
gentypen (或 gentypem) 指示 这 些 数学 函数 参数 可 以 取 char{2|3|4|8|16}、uchar{2|3|4|8|16}、short{2|3|4|8|16}、 
ushort{2|3|4|8|16}、int{2|3|4|8|16}、long{2|3|4|8|16}、ulong{2|3|4|8|16}、float{2|3|4|8|16} 和 double{2|3|4|8|16}， 通 用 类 型 
ugentypem 表 示 内 建 的 无 符号 整数 数据 类 型 。Shuffle() 函 数 如 下 : 


gentypen shuffle (gentypem x, ugentypen mask) 
gentypen Shuffle2 (gentypem x, gentypem y, ugentypen mask) 


shuffle0 和 shuffle20 函 数 返回 的 都 是 一 个 矢量 数据 。 对 于 shuffle0 函 数 ， 返 回 矢量 的 分 量 来 自 于 输入 的 矢量 x; 对 于 
shuffle20 函 数 ， 返 回 矢量 的 分 量 来 自 于 输入 矢量 x 和 y。 返 回 矢量 的 分 量 到 底 来 自 于 输入 矢量 的 哪个 分 量 ， 这 由 遂 数 的 最 后 一 个 
参数 mask 确 定 。 


mask 参 数 的 数据 大 小 必须 与 函数 返回 的 矢量 数据 大 小 相同 ， 同 时 mask 参 数 数 据 类 型 为 无 符号 整数 类 型 。Shuffle( 函 数 返回 
的 矢量 数据 类 型 与 输入 矢量 x 和 y 数 据 类 型 相同 。 


下 面 就 通过 两 个 例子 来 讲解 shuffle 用 法 ， 对 于 shuffle(0) 函 数 的 一 个 例子 如 图 4-4 所 示 : 


uint8 mask= (uint8) (1.2.0.1.3.1.2.3) 


float4 input= (float4) 
0,25 .0.50.75;1.0) 


uint8 output=shuffle (input,mask) 


图 4-4 ” shuffle0 远 数 使 用 示例 


上 述 例子 中 ， 使 用 shuffle0) 函 数 根据 float4 input 的 矢量 值 ， 利 用 mask 的 值 来 创建 一 个 float8 的 矢量 。output 当 前 分 量 的 值 
根据 当前 mask 分 量 值 去 读 取 对 应 位 置 上 的 input 分 量 的 值 。 那 么 当 mask 分 量 的 值 大 于 input 中 分 量 个 数 的 值 ， 这 该 如 何 处 理 呢 ? 
在 OpenCL 中 ， 使 用 mask 分 量 值 的 k 位 最 低 有 效 位 (least significant bits) 来 确定 读 取 input 分 量 值 。 对 于 k 的 值 ， 根 据 输入 
input 舌 量 的 分 量 个 数 n 确 定 ，k=log2n。 对 于 上 述 例子 ，n=4， 所 以 k=2。 对 于 mask 中 的 第 0 个 分 量 值 为 5 (二 进 制 : 101) ， 
取 k=2 位 最 低 有 效 位 的 值 为 1 (01) ， 所 以 output 第 0 个 分 量 的 值 为 0.5; 其 他 分 量 依次 类 推 可 以 得 到 最 后 的 intput 结 果 。 


对 于 shuffle2() 函 数 ， 使 用 示例 如 图 4-5 所 示 : 


上 述 例子 中 ， 使 用 shuffle20 函 数 ， 根 据 char8 类 型 的 input1 和 input2 的 矢量 值 ， 利 用 mask 的 值 来 创建 一 个 char16 的 矢量 。 
运算 过 程 与 shuffle 一 样 。 只 是 输入 矢量 的 分 量 个 数 n 值 为 input1 的 分 量 个 数 加 上 input2 的 分 量 个 数 ， 结 果 为 16。mask 的 最 低 有 
效 位 为 4。 对 于 mask 中 的 第 0 个 分 量 值 ，26 (二 进 制 : 10110) ， 取 k=4 位 最 低 有 效 位 的 值 为 6 (0110) ， 所 以 output 的 第 0 个 
分 量 值 为 s， 其 他 分 量 依次 类 推 可 以 得 到 最 后 的 intput 结 果 。 


uintl6 mask—(uint16)(6,10,5,2,8,0,9,14,7,5,12,3,11,15,1,13) 


char8 input2 


char16 output=shuffle2(inputl,input?2,mask) 


图 4-5 ”shuffle2 了 水 数 使 用 示例 


上 述 两 个 示意 图 对 应 的 内 核 代码 为 : 


kernel void shuffle tes (global float8 *sl, global charl6 *s2) 
{ 


uint8 maskl = (uint8) (5, 7, 0, 1, 3, 1, 2, 3) 
float4 input = (float4) (0.25f, 0.5f, 0.75f, 
*S1 = Shuffle (input，mask1) 

uint16 mask2 = (uint16) (26, 10, 5, 2, 8, 0, 9, 14, 7, 5, 12, 3, 
ll; 15;.. 1 13) 

chare Tneutl 三 (hare) (1 TO Ey MO Ma MU Sy ET 
chare: Ln6ut2 = (Care) (Er ev, "Dy Ey MM TE 27 LT) 
*s2 = shuffle2 (intpul, input2, mask2) 


1.0f) ， 


通过 OpenCL 执 行 模型 我 们 知道 ， 对 于 一 个 内 核 函 数 ， 会 有 多 个 工作 组 参与 计算 。 每 个 工作 组 中 会 有 多 个 工作 项 参与 计算 。 
对 于 这 些 工作 组 和 工作 项 是 否 有 同步 机 制 呢 ? 在 OpenCL 中 定义 了 一 个 相对 宽松 的 同步 机 制 。 在 这 个 同步 机 制 中 ， 多 个 工作 组 之 
间 没 办 法 同步 ;而 在 同一 个 工作 组 内 的 工作 项 ， 可 以 通过 内 置 函 数 实 现 同步 ; 而 不 同 工 作 组 内 的 工作 项 是 没 办 法 通过 内 建 的 API 
进行 同步 。 


一 个 工作 组 内 的 工作 项 可 以 通过 如 下 函数 实现 同步 : 


void work group barrier(cl mem fence flags flags) 
void work group barrier(cl mem fence flags flags, 
memory_scope scope) 


对 于 如 上 函数 ， 在 一 个 工作 组 内 ， 在 计算 单元 上 执行 内 核 的 所 有 工作 项 在 越过 这 个 函数 继续 执行 之 前 ， 必 须 执行 这 个 沙 数 ， 
也 可 以 看 做 这 是 所 有 工作 项 的 一 个 同步 点 。 执 行内 核 的 工作 组 中 所 有 工作 项 都 必须 执行 到 这 个 函数 。 


如 果 这 个 函数 在 一 个 条 件 语 句 中 ， 且 工作 组 内 任何 一 个 工作 项 进入 了 这 个 条 件 语句 并 执行 这 个 函数 ， 那 么 工作 组 内 所 有 工作 
项 都 必须 执行 此 函数 。 


如 果 这 个 浮 数 在 一 个 循环 中 ， 对 于 每 一 次 循环 迭代 ， 工 作 组 内 任何 工作 项 能 够 越过 这 个 函数 继续 执行 之 前 ， 所 有 工作 项 都 必 
须 执 行 这 个 函数 。 


参数 scope 指 定 工作 组 内 工作 项 对 存储 空间 的 访问 是 否 对 工作 组 内 的 工作 项 、 设 备 或 所 有 SVM 设备 可 见 的 。 如 果 没 有 这 个 
scope， 则 默认 为 memory_scope_work_group。 关 于 这 个 参数 的 取 值 ， 我 们 将 在 4.12 节 讲述 ， 本 节 读 者 只 要 了 解 便 可 。 


参数 flags 指 定 了 何 种 存储 空间 在 参数 scope 指 定 的 恰当 存储 范围 内 变 得 可 见 ， 可 取 的 值 为 : 
* CLK_LOCAIT, MEM_FENCE: 局 部 存储 器 访问 对 工作 组 内 所 有 工作 项 是 可 见 的 。 
- CLK_GLOBAL_ MEM_FENCE: 全 局 存储 器 访问 对 工作 组 内 所 有 工作 项 是 可 见 的 。 
CLK_IMAGE_MEM_FENCE: 图 像 存储 器 访问 对 工作 组 内 所 有 工作 项 是 可 见 的 。 


下 面 列举 一 些 使 用 work _ group_barrier 不 正确 的 用 法 。 


kernel void readlocal (global int *g, local :int *shared) 
{ 
int id = get global id(0); 


work group barrier (CLK LOCAL MEM FENCE) 


在 上 述 例子 中 ， 假 定 每 一 个 工作 组 中 有 16 个 工作 项 。 在 这 种 情况 下 ， 不 是 所 有 的 工作 项 都 会 执行 work_group_barrier0。 对 
于 这 种 情况 ， 结 果 是 未 知 的， 可 能 会 造成 硬件 中 的 一 个 死 锁 。 


kernel void MemcpyCheck (global int *a.global :int *out) 
{ 

int temp; 

int id = get global id(0); 

a[lid] = alid] + iqd; 

barrier (CLK GLOBAL MEM FENCE); 

temp = (a[lid] + a[lid + 1] + al[liqd + 2]); 

out[id] = temp; 


在 上 述 代 码 中 ， 假 定 全 局 工作 项 大 小 为 8， 有 两 个 工作 组 。 对 于 id= 3 的 工作 项 计算 temp 值 时 ， 会 用 到 另 一 个 工作 组 中 a[4] 和 
al[5] 的 值 。 而 工作 组 之 间 无 法 实现 存储 器 一 致 性 ， 所 以 对 于 上 述 情况 ， 结 果 是 可 能 某 次 计算 结果 正确 ， 下 次 计算 结果 又 是 错误 
的 。 对 于 刚 开 始 编写 OpenCL 并 行程 序 的 读者 ， 这 类 错误 是 比较 常见 的 。 


4.12 ”原子 国 数 


OpenCL 2.0 中 原子 操作 的 用 法 与 C11 标 准 相同 ， 与 OpenCL 1.2 中 原子 操作 用 法 有 差异 ， 对 于 OpenCL 1.2 支 持 的 原子 操 
作 ， 通 常 以 T atomic key 命 名， 简单 罗列 如 表 4-14 所 示 。 本 书 我 们 主要 以 OpenCL 2.0 标 准 ， 对 于 OpenCL 2.0 以 下 标准 的 原子 
操作 本 书 就 不 展开 阐述 ， 需 要 的 读者 可 以 查看 OpenCL 1.2 标 准 文档 。 


表 4-14 OpenCL 1.2 支 持 的 原子 操作 


4 计 算 
加 法 


pa 
DD 
< 

也 


减法 


AOT 
And 
Min Min 计算 最 小 人 
Max Max 让 


在 OpenCL 2.0 中 ， 完 全 把 原子 操作 与 其 他 操作 分 开 。 原 子 操作 有 自己 的 原子 数据 类 型 。 常 规 的 OpenCL 操 作 (=、+、>、 
< 及 其 他 操作 ) 对 这 些 原 子 数据 类 型 变量 操作 会 导致 内 核 代码 编译 失败 。OpenCL 2.0 中 定义 的 原子 数据 类 型 有 : atomic int、 
atomic uint、atomic long、atomic ulong、atomic float、atomic double、atomic intptr t、atomic uintptr t、 
atomic size_t 和 atomic_ptrdiff t。OpenCl 支 持 的 标量 数据 类 型 ， 在 OpenCL 2.0 中 大 部 分 都 支持 原子 操作 。 不 过 需要 注意 的 
是 ， 对 于 atomic long、atomic ulong、atomic double、atomic intptr t、atomic uintptr t、atomic size_t 和 


atomic_ptrdiff t，OpenCL 设 备 是 选择 性 支持 的 。 


对 于 定义 函数 局 部 的 原子 变量 ， 我 们 可 以 使 用 atomic_init( 来 初始 化 它 的 值 。 对 于 全 局 原子 变量 ， 要 使 用 宏 
ATOMIC_VAR _INITO 来 初始 化 它 的 值 。 如 果 要 在 常规 操 中 使 用 原子 变量 的 值 ， 需 要 使 用 atomic_load0 函 数 ， 把 原子 变量 的 值 拷 
贝 到 常规 变量 中 再 使 用 。 如 果 要 把 常规 变量 中 的 值 拷 贝 到 原子 变量 中 ， 需 要 使 用 atomic_store() 函 数 。OpenCL 2.0 内 建 了 对 原 
子 变量 进行 算术 、 人 逻辑、 比较、 交换 等 操作 的 内 建 浮 数 。 现 在 我 们 就 来 讲解 下 这 些 内 建 浮 数 ， 如 表 4-15 所 示 。 


表 4-15 原子 类 型 操作 的 内 建 原子 函数 
描 述 
用 desired 的 值 原子 地 取代 object 指 回 的 值 ， 也 就 是 用 常规 
变量 的 值 原子 地 更 新 原子 变量 中 的 值 
A 为 原子 类 型 的 其 中 一 种 ，C 为 相应 的 非 原子 类 型 。 存 储 
器 受到 order 值 的 影响 
order 参数 不 能 为 memory order acquire、memory order 


void atomic store(volatile A *object, C desired) 
void atomic store explicit(volatile A *object, C 
desired. memory order order) 
void atomic store explicit(volatile A *object, C 
acdq _ rel 
atomic_store 中 , 默认 的 memory_order 值 为 memory_order_ 


seq_cst，memory_scope 值 为 memory_scope_device 


desired, memory_order order. memory_scope scope) 


函 数 
C atomic load(volatile A *object) 
C atomic load explicit( 
volatile A *object, 
memory_order order) 
C atomic load explicit( 
volatile A *object, 
memory_order order, 
memory_scope scope) 
Catomic exchange(volatile A *object, 
C desired)C atomic exchange explicit( 
volatile A *object, 
C desired, 


memory_order order)C atomic exchange explicit( 


volatile A *object, 
C desired, 
memory_order order, 


memory_scope scope) 


bool atomic compare exchange strong(volatile A 


*object, C *expected, C desired) 


bool atomic compare exchange strong_ 


explicit(volatile A *object, C *expected, C desired, 


memory_order success, memory_order failure) 


bool atomic compare exchange strong explicit( 
volatile A *object, C *expected, C desired, memory _ 


order success, memory_order failure, memory_scope 


scope) 


bool atomic compare exchange weak(volatile A 


*object, C *expected, C desired) 


bool atomic compare exchange weak _ 


explicit(volatile A *object, C *expected, C desired, 


memory_order success, memory_order failure) 


bool atomic compare exchange weak 
explicit(volatile A *object, C *expected, C desired, 


memory_order success, memory_order failure, 


memory_scope scope) 


Catomic fetch key(volatile A *object, M operand) 
C atomic fetch key_explicit(volatile A *object, M 


operand, memory order order) 


C atomic fetch key_ explicit(volatile A *object, M 


operand, memory_order order, memory_scope scope) 


如 下 列举 一 些 原子 操作 的 例子 : 


( 续 ) 


描 述 

原子 地 返回 object 指向 的 值 ， 也 就 是 用 原子 变量 中 的 值 原 
子 地 更 新 常规 常量 的 值 

A 为 原子 类 型 的 其 中 一 种 ，C 为 相应 的 非 原子 类 型 。 存 储 
器 受到 order 值 的 影响 

order 人 参数 不 能 为 memory order acquire、memory order 
acq_rel 

atomic load 中， 默认 的 memory order 值 为 memory 
order_seq_cst，memory _ scope 值 为 memory_scope_device 


原子 地 用 desired 的 值 取代 object 指向 的 值 ， 在 作用 之 前 返 
回 原来 object 指向 的 值 。 存 储 器 受到 order 值 的 影响 

A 为 原子 类 型 的 其 中 一 种 ，C 为 相应 的 非 原 子 类 型 

atomic_exchange 中 ， 默 认 的 memory_ order 值 为 memory 


order_seq_cst，memory scope 值 为 memory_scope_device 


原子 地 比较 object 指 向 的 值 与 expected 指向 的 值 是 否 相 
等 ， 如 果 相 等 把 object 指向 的 值 用 desired 的 值 取 代 ; 否则 将 
object 指向 的 值 存放 到 expected 指向 的 对 象 中 。 也 就 是 如 下 
操作 : 

if(*object==*expected) 

*object=desired:; 

else 

*expected=*object; 

A 为 原子 类 型 的 其 中 一 种 ，C 为 相应 的 非 原 子 类 型 。 

如 果 比 较为 真 ， 则 存储 器 受到 success 的 影响 ; 否则 受到 
failure 的 影响 

failure 参 数 的 值 不 能 为 memory order release、memory 
order acq_rel 

对 于 没有 _explicit 结尾 的 函数 ， 默 认 的 memory_order 值 为 
memory order seq_cst，memory scope 值 为 memory scope 


device 


计算 key 指定 的 计算 。key 的 类 型 详情 见 表 4-15。 原 子 地 把 
object 指向 的 值 与 operand 执行 key 计算 ， 把 结果 写 入 object 
指向 的 地 址 空间 。 返 回 object 原来 的 值 

A 为 原子 整数 类 型 ，M 为 相应 的 非 原 子 类 型 

对 于 没有 _explicit 结尾 的 也 数 ， 默 认 的 memory_order 值 为 
memory_order_ seq_cst，memory _ scope 值 为 memory_scope_ 
device 


kernel void DoubleTest (global int *a) 
{ 

local atomic int guide; 

int id = get global id(0); 

a[idq] = ig; 


work group barrier (CLK GLOBAL MEM FI 


ENCE); 


atomic fetch add((atomic int *)&a[2], 3); // 


if(id == 0) 
{ 


} 


atomic init(&guide, 50); // guide=50 


work group barrier (CLK LOCAL MEM FI 


ENCE 


a[2]=386, 即 128*3+2 


a[lid] = atomic load(g&guide); // alid]=50 
a[lid] += 100; 
if(id == 0) 
{ 
atomic store(g&guide, al[lid]); // guide=150 
alid] = atomic exchange (&guide, 10) ; 
.// a[l0]=150,guide=10; 
} 
work group barrier (CLK LOCAL MEM FENCE); 
atomic fetch .add (&guidge, 22); // guide=2526, 即 (22*128+10) 
atomic fetch add explicit (gguide, 1, memory order relaxed, 
memory scope device); // guide=2954 
work qroup barrier (CLK LOCAL MEM FENCE); 
if (id = 
{ 


} 


a[1] = atomic load(&guide); // a[1] =2954; 


上 述 例子 展示 了 如 何 使 用 表 4-15 中 的 几 个 原子 操作 函数 。 细 心 的 读者 会 发 现 ， 在 表 4-15 中 笔者 对 函数 中 的 memory_order 
和 memory_scope 人 参数 并 未 过 多 说 明 。 关 于 这 两 个 参数 ， 将 在 第 5 章 中 讲述 ， 在 此 先 不 展开 讲述 。 


在 4.13 节 中 ， 我 们 知道 对 于 图 像 对 象 的 访问 修饰 符 ， 有 read write 修饰 符 。 对 于 read write 修饰 符 的 图 像 ， 我 们 用 如 下 国 
数 : 


void atomic work item fencel(cl mem fence flags flags, 
memory order order, 
memory scope scope) 


来 确保 一 个 工作 项 写 入 图 像 操 作对 这 个 工作 项 接 下 来 的 读 图 像 操 作 是 可 见 的 。 也 就 是 设置 一 个 栅栏 ， 同 步 随后 的 读 图 像 操 作 。 例 
如 : 


kernel void ImageProcess (read | write image2d t image, 


int threshold) 
{ 
int2 coord = (int2) (get global id(0), get global id(1)); 
float4 p00 = read imagef (image, coord + (int2) (-1, -1)); 
float4 pl0 = read imagef (image, coord + (int2) (0, -1)); 
float4 p20 = read imagef (image, coord + (int2) (1, -1)); 
float4 p01 = read imagef (image, coord + (int2) (-1, 0)); 
float4 p21 = read imagef (image, coord + (int2) (1, 0)); 
float4 p02 = read imagef (image, coord + (int2) (-1, 1)); 
float4 pl2 = read imagef (image, coord + (int2) (0, 1)); 
float4 p22 = read imagef (image, coord + (int2) (1, 1)); 
float3 gx = -p00.xyz + p20.xyz + 2 * (p21.xyz - pOl.xyz) - 
pO2.xyz + p22.xy2z; 
float3 gy = -p00.xyz - P20.xyzZ + 2 * (pl2.xyz - pl0.xyz) + 
pO2.xyz + p22.xy2z; 
float3 g = native sqrt(gx * gx + gy * gy); 


write imagef (image, coord, (float4) (g.x, g.y, 9g.z, 1.0f )); 

atomic work item fence (CLK IMAGE MEM FENCE, 
memory ， order acqg rel, 
memory_scope 1 work item); 

float4 temp = read imageui (image, imag Sampler, coord); 

temp.x = select (255, 0, (uint) (temp.x < threshold)); 

write imageui (image, coord, temp); 


4.13 ”图 像 读 / 写 疯 数 


对 于 OpenCL 内 建 的 标量 或 者 矢量 数据 类 型 ， 我 们 可 以 直接 通过 赋值 (=) 语句 来 读 等 号 右边 的 变量 值 ， 并 把 相应 的 值 写 入 
到 等 号 左边 的 变量 中 。 但 是 对 于 图 像 数 据 ，OpenCL 设 备 有 专门 的 硬件 来 读 / 写 图 像 。 与 其 他 通过 赋值 语句 读 / 写 不 一 
样 ，OpenCL 中 有 读 写 图 像 的 内 置 函 数 ， 使 得 我 们 可 以 充分 利用 这 个 专用 硬件 。OpenCL 设 备 对 图 像 支 持 是 可 选 的 。 我 们 可 以 使 


用 clGetDevicelnfo() 来 查询 CL_DEVICE IMAGE _ SUPPORT 属性 ， 来 确定 设备 是 否 支持 图 像 。 


声明 为 read_only 的 图 像 对 象 ， 对 图 像 进行 写 操作 ， 则 会 产生 编译 错误 ; 同样 ， 如 果 声 明 为 write_only 的 图 像 对 象 ， 对 图 像 
行 读 操作 ， 也 会 产生 编译 错误 。 只 有 声明 为 read_write 的 图 像 对 象 ， 才 可 以 对 图 像 进行 读 、 写 操作 。 


声明 为 read_only 的 图 像 ， 需 要 使 用 带 有 采样 器 的 读 函 数 来 读 取 图 像 ;而 声明 为 read_write 的 图 像 ， 正 如 4.1.2 节 中 所 说 的 那 
样 ， 不 能 使 用 带 有 采样 器 的 读 函 数 来 读 取 图 像 。 


在 内 核 中 ， 我 们 可 以 查询 图 像 的 大 小 、 深 度 、 通 道 数 据 类 型 等 信息 。 


本 节 我 们 就 从 以 上 几 点 来 讲解 图 像 读 / 写 函 数 。 


4.14 工作 组 函数 


在 OpenCL 中 ， 提 供 了 一 些 工 作 组 级 别 的 内 建 函数 ， 表 4-20 列 出 了 这 些 函 数 。 执 行内 核 的 一 个 工作 组 内 所 有 的 内 核 都 要 执行 
这 些 内 建国 数 。 在 开始 这 些 国 数 之 前 ， 我 们 对 表格 中 的 数据 类 型 做 一 些 约定 : 用 通用 类 型 名 gentype 指 示 这 些 数 学 国 数 参数 可 以 
取 half、int、uint、long、ulong、float 或 double 类 型 。 表 格 中 的 <op> 指 的 是 add、min 或 max。 


表 4-20 ”内 建 工作 组 函数 


对 工作 组 内 所 有 的 工作 项 ， 如 果 predicate 是 非 零 值 ， 
则 返回 1， 和 否则 返回 0 
int Work _ group _ all (int predicate) 工作 组 内 所 有 工作 项 都 会 判断 predicate 与 非 零 值 关系 ， 


最 终 函 数 结果 是 对 每 个 工作 项 判断 结果 与 (AND ) 操作 
对 工作 组 内 任意 的 工作 项 ， 如 果 predicate 是 非 零 值 ， 


. 二 则 返回 1; 否则 返回 0 
int Work _ group_any (int predicate) 工作 组 内 所 有 工作 项 都 会 判断 predicate 与 非 零 值 关系 ， 
最 终 清 数 结果 是 对 每 个 工作 项 判断 结果 或 (OR) 操作 


( 续 ) 


性 
BF 


函数 
gentype work group_broadcast (gentype a. size t local 1d) 
gentype work group_ broadcast (gentype a., size tlocal 


生生 


id x, size tlocal id y) 在 工作 组 内 广播 ID 为 local id 的 工作 项 的 局 部 变量 


gentype Work group_ broadcast ( gentype a., size t 
local id x. size tlocal id y. size tlocal id 7z) 


F ed 对 工作 组 内 所 有 工作 项 的 x 做 指定 <op> 的 规约 操作 ， 
gentype work group reduce <op> ( gentype x 
EE SE ES OE ER 返回 规约 结果 

对 工作 组 内 所 有 工作 项 的 x 做 指定 <op> 的 互 斥 扫描 
(exclusive scan) 操作 ， 返 回 规约 结果 
gentype work group_scan inclusive_ <op> (gentype x) 工作 组 内 所 有 工作 项 的 x 做 指定 <op> 的 包含 扫描 
Sen yt Soup scan = "hb™ (BoM YP ae scan) 操作 ， 返 回 规约 结果 


gentype Work group_ scan exclusive <op> (gentype x) 


假设 al 名 ={0,123,45 只 有 一 个 工作 组 ， 工 作 组 内 有 4 个 工作 项 ， 如 上 几 个 工作 组 函数 ， 我 们 通过 一 个 例子 来 讲解 它们 的 用 


kernel void DoubleTest (global int *xa global int xb) 
{ 
nt id = get global iqd(0); 
nt predicate = al[lid]; 
= work group reduce agd (predicate); 
work group reduce min (predicate); 
work group reduce max (predicate); 
work group any (predicate); 
work group all (predicate); 
value = work group scan exclusive add (predicate); 
valuel = work group scan inclusive add (predicate); 


EEOOUOOTE EF- 


] = value; 
// b[5]= work group scan exclusive add (predicate); 错误 
] = valuel; 


int global ia/ 
if(0 == id) 


global id = 100; 


global id = work group broadcast (global id, 0); 
if (id == 
b[7] = global iqd; 


上 述 代码 中 : 

“ 对 于 wotk_group_reduce_add (predicate) ， 返 回 的 是 b[0]=0+1+2+3=6。 

" 对 于 wotk_group_reduce_min (predicate) ， 返 回 的 是 最 小 值 b[1]=0。 

对 于 wotk_gtroup_reduce_max (predicate) ， 返 回 的 是 最 大 值 b[2]=3。 

. 对 于 wotk_group_any (predicate) ， 因 为 工作 项 ID 为 1、2、3 的 predicate 值 非 零 ， 故 返回 值 b3]=1。 
对 于 wotk_group_all (btedicate) ， 因 为 工作 项 ID 为 0 的 ptedicate 值 为 零 ， 故 返回 值 b 几 =0。 

对 于 wo 全 _gtroup_scan_exclusive_add (predicate) ， 如 图 4-6 所 示 ，b[5]=3。 


对 于 wotk_egroup_scan_inclusive_add (predicate) ， 如 图 4-7 所 示 ，b[6]=6。 


对 于 wotk_group_broadcast (global_id,0) ， 广 播 global_id 值 ， 所 以 b[7]=100。 


工作 组 


1D=0 ID=| ID=2 1D=3 
:了 . ; : 
工作 项 predicate=0 | | predicate=1 predicate=2 | | predicate=3 


Value=work group scan exclusive add (predicate) 


1ID=0 ID=1 ID=2 
Value=0 Value=1 Value=1 


图 4-6 work_group_scan_exclusive_add 计算 


工作 组 
工作 项 ID=0 1D= ID=2 ID=3 
predicate=0 | | predicate=1 predicate=2 | | predicate=3 


Value=work group scan inclusive add (predicate) 


ID=0 ID=] TD=2 ID=3 
Value=0 Value=1 Value=3 Value=0 


图 4-7 wotk_egroup_scan_inclusive_add 计 算 


4.15 ”管道 函数 


OpenCL 2.0 中 引入 了 一 种 新 的 工作 机 制 用 于 在 不 同 内 核 间 传 递 数 据 ， 这 种 新 的 机 制 就 是 管道 (pipe) 。 一 个 管道 实际 上 就 


是 一 个 结构 化 FIFO 缓 冲 ， 是 通过 类 型 修饰 符 pipe 关 键 字 来 标识 ， 由 数据 包 (packet) 的 集合 空间 构成 。 这 些 数 据 包 在 管道 中 是 
有 序 放 置 的 ， 管 道 只 能 被 内 核 函数 访问 ， 而 不 能 被 主机 访问 。 


例如 : 


Pipe int4 pipeA;// int4 包 的 一 个 管道 
pipe user type 七 pipeB;// 用 户 自 定 包 的 一 个 管道 


可 以 使 用 4.1.2 节 中 的 访问 修饰 符 read_only 或 write_only 来 限定 管道 在 内 核 中 的 读 写 权 限 。 默 认 修饰 符 是 read_only。 内 核 
能 对 同一 个 管道 又 读 又 写 ， 所 以 管道 用 read write 修饰 符 会 有 编译 错误 。 管 道 ( 即 pipe 对 象 ) 只 能 作为 函数 (包含 内 核 国 数 ) 
参数 传 入 ， 而 不 能 用 在 函数 内 部 进行 声明 或 作为 程序 全 局 对 象 使 用 。 


OpenCL 2.0 中 ， 增 加 了 管道 操作 的 内 建 函 数 ， 下 面 我 们 就 分 别 来 讲述 这 些 内 建 浮 数 。 


4.16 ”设备 队列 


我 们 有 如 图 4-8 中 这 样 一 种 应 用 场景 ， 采 用 GPU 对 流体 模拟 。 气 体 的 活跃 度 和 强度 随 着 空间 位 置 的 变化 而 变化 。 为 了 更 好 地 
模拟 气体 流动 细节 ， 在 图 中 右边 建 模 所 需 的 计算 明显 要 高 于 左边 。 在 OpenCL 1.2 中 ，NDRange 都 是 在 主机 端 启动 ， 完 成 计算 
任务 所 需 的 工作 项 目 工作 项 都 是 在 启动 之 前 就 已 定义 好 。 如 此 一 来 ， 若 使 用 固定 大 小 的 细 网 格 来 计算 ， 对 于 图 像 中 左边 区 域 明显 
增加 了 很 多 无 用 的 计算 量 。 但 是 如 果 使 用 粗 粒 度 的 网 格 来 计算 ， 图 像 右边 区 域 精度 就 会 下 降 。 有 没有 一 种 方式 可 以 根据 需求 来 动 
态 分 配 网 格 大 小 呢 ? 如 图 4-8 中 右 下 部 分 动态 分 配 网 格 图 。 


”静态 分 配 网 格 ) 


动态 分 配 网 格 ，) 


初始 网 格 


图 4-8 固定 网 格 与 动态 网 格 流体 模拟 


OpenCL 2.0 人 允许 内 核 程 序 在 设备 端 队列 中 增加 内 核 执 行 ， 也 就 是 说 在 设备 上 正在 运行 的 内 核 A 可 以 根据 需求 调用 内 核 B (我 
们 把 内 核 A 称 为 父 内 核 ， 内 核 B 称 为 子 内 核 ) ， 无 需 把 内 核 执 行 控制 权 交 还 给 主机 ， 图 4-9 大 致 比较 了 OpenCL 1.2 中 内 核 调 用 方 
式 和 OpenCL 2.0 中 设备 队列 方式 的 不 同 执行 过 程 。 减 少 了 内 核 A 返 回 时 间 和 主机 调用 内 核 B 的 时 间 ， 对 于 某 些 频繁 调用 内 核 函 数 
的 应 用 场景 来 说 可 以 提升 程序 性 能 。 


主机 端 主机 端 
| | 
时 间 时 间 
| | 
a) 没有 设备 队列 b) 设备 队列 


图 4-9 OpenCL 1.2 内 核 调 用 和 OpenCL 2.0 设 备 内 核 


4.17 ”本章 小 结 


本 章 介绍 了 OpenCL C 语 言 的 详细 细节 ， 包 括 与 内 核 声 明 相关 的 OpenCL C 语 言 的 修饰 符 ，OpenCL 内 核 内 运算 相关 的 运算 


NW、 


算 函 数 ， 以 支持 常用 的 数学 运算 。 


在 很 多 算法 中 ， 需 要 对 运算 进行 同步 以 保证 能 够 正确 读 写 数据 ， 因 此 OpenCL 提 供 了 许多 内 核 内 同步 的 函数 ， 如 工作 组 栅 
栏 、 原 子孙 数 和 管道 函数 等 。 


为 了 支持 内 核 中 调用 内 核 功 能 ，OpenCL 引 入 了 设备 队列 的 概念 ， 通 过 这 个 概念 ，OpenCL 扩 大 了 应 用 范围 。 


第 5 章 “OpenCL 存 储 器 对 象 


人 存储 器 对 象 是 OpenCL 中 一 个 很 基本 的 概念 。 人 存储 器 对 象 的 分 配对 应 于 一 个 上 下 文 ， 这 个 上 下 文中 可 能 有 一 个 或 多 个 设备 。 
存储 器 对 象 对 上 下 文中 所 有 的 设备 都 是 可 见 的 。 存 储 器 对 象 不 能 在 不 同 平台 设备 间 共 享 数 据 。 为 了 避免 存储 器 对 象 在 设备 上 的 重 
复 分 配 (例如 ， 可 能 在 某 个 设备 上 根本 就 不 会 使 用 该 存储 器 对 象 ) ， 只 会 在 设备 端 第 一 次 使 用 时 才 会 分 配 存储 器 对 象 ， 所 以 创建 
后 第 一 次 使 用 存储 器 对 象 时 会 比较 慢 。 


OpenCl 定 义 了 一 个 宽松 的 内 存 模型 ， 也 就 是 说 对 一 个 存储 器 对 象 的 所 有 写 操 作 并 非 对 同一 缓冲 区 的 后 续 读 操作 都 可 见 ， 对 
于 这 种 情况 需要 一 个 栅栏 (barrier) 或 明确 的 同步 点 。 


OpenCL 中 用 cl_mem 数 据 类 型 来 表示 存储 器 对 象 引 用 。 缓 冲 区 (Buffer) 、 图 像 和 管道 是 存储 器 对 象 实体 。 如 果 存 储 器 对 
象 包含 了 像素 数据 ， 可 以 创建 图 像 对 象 ; 而 针对 其 他 情况 可 以 把 数据 人 存放 在 缓冲 区 或 管道 中 。 


除了 可 以 创建 存储 器 对 象 实现 主机 与 设备 间 共 享 数据 ， 在 OpenCL 2.0 中 也 可 以 创建 主机 与 设备 共享 的 虚拟 存储 器 。 对 于 共 
享 虚拟 存储 器 中 的 数据 ， 主 机 与 设备 都 可 以 直接 操作 ， 极 大 地 方便 了 程序 开发 。 


本 章 我 们 就 主要 讲解 OpenCL 2.0 中 的 存储 器 对 象 和 共享 虚拟 存储 器 。 


5.1 组 站 区 


5.1.1 “分 配 缓冲 区 对 象 


存储 器 对 象 是 OpenCL 的 一 个 基本 概念 ， 而 缓冲 区 对 象 是 存储 器 对 象 实体 。 绥 冲 区 对 象 是 1 维 的 内 存 资源 ， 可 以 包含 标量 、 
矢量 或 用 户 自 定义 的 数据 类 型 。 可 以 使 用 如 下 函数 来 分 配 缓冲 区 对 象 


cl mem clCreateBuffer ( cl context context, 
cl mem flags flags, 
Size. t. sizey 
void *host ptr, 
Cl int, *errcode. tet) 


* 参数 context 是 一 个 合法 的 上 下 文 对 象 ， 要 为 这 个 上 下 文 分 配 缓冲 区 对 象 。 

. 参数 size 是 所 分 配 缓冲 区 的 大 小 ， 用 字 节 表示 。 

参数 host_ptt 指 向 可 能 已 经 由 应 用 分 配 好 的 缓冲 数据 ， 大 小 必须 >=size， 这 个 参数 如 何 使 用 由 参数 flags 确 定 。 
: 参数 errcode_ret 用 来 返回 错误 码 。 

. 参数 flags 是 一 个 位 域 ， 用 来 指定 缓冲 区 的 分 配 和 使 用 信息 ， 可 取 的 值 如 表 5-1 所 示 。 


表 5-1 cl_mem_flags 值 


cl_mem flags 描 述 


CL MEM READ WRITE 存储 器 对 象 是 可 读 和 可 写 的 

CL MEM WRITE ONLY 存储 器 对 象 只 能 写 入 

CL MEM READ ONLY 存储 需 对 象 是 只 读 的 

CL MEM USE HOST PTR 存储 器 对 象 访问 由 主机 指针 host_ptr 指定 的 内 存 区 域 

CL MEM ALLOC HOST PTR 在 主机 可 访问 的 内 存 中 分 配 存储 器 对 象 

CL MEM COPY HOST PTR 分 配 存储 需 对 象 ， 并 用 主机 host_ptr 指定 的 内 存 区 域 复制 数据 
CL MEM HOST WRITE ONLY 存储 器 对 象 只 能 主机 写 人 

CL MEM HOST READ ONLY 存储 需 对 象 只 能 主机 读 取 

CL MEM HOST NO ACCESS 存储 器 对 象 主机 不 能 访问 


CL MEM READ ONLY、CL MEM WRITE ONLY 和 CL MEM_READ WRITE 用 于 描述 存储 器 对 象 在 内 核 中 的 访问 属性 。 


CL MEM ALLOC HOST PTR、CL MEM COPY HOST PTR 和 CL MEM USE HOST PTR 用 于 描述 主机 指针 标志 。 这 三 个 
标志 在 笔者 初次 接触 OpenCL 编 程 时 也 比较 迷糊 ， 在 此 笔者 就 具体 讲述 这 三 个 标志 值 的 区 别 : 


1) CL MEM _ALLOC_HOST_PTR: 在 主机 上 分 配 存储 器 对 象 ， 并 且 主 机 端 可 以 访问 这 些 存 储 器 对 象 。 在 OpenCL 存 储 模型 
中 ， 如 果 主 机 与 设备 内 存 是 分 开 的 ， 那 么 在 缓冲 区 分 配 时 将 涉及 内 存 拷贝 。 但 是 在 ARM Mali、Intel lvy Bridge 架 构 之 后 的 处 理 
器 和 AMD APU 中 ，GPU 与 主机 共享 存储 的 平台 ， 主 机 和 设备 之 间 共 享 内 存 ， 无 须 在 主机 与 设备 间 数 据 来 回 拷贝 。 使 用 
cIEnqueueMapBuffer 函 数 ， 把 分 配 的 存储 器 对 象 映 射 到 主机 端 ， 主 机 直接 操作 存储 器 对 象 ;主机 完成 操作 以 后 ， 使 用 
cIEnqueueUnmapMemoObject 函 数 来 取消 存储 器 对 象 的 映射 。 如 代码 : 


.C1_mem memobject = ClLCreateBuffer (CL MEM READ ONLY | 


CL MEM ALLOC HOST PTR); 


.address = clMapBuffer (buffer); 
.memset (address) 或 者 memcpy (address); 
.ClEnqueueUnmapMemObject (buffer); 


OD 


2) CL MEM_COPY_HOST_PTR: 在 设备 上 分 配 存 储 器 对 象 ， 并 且 使 用 host_ptr 指 向 的 主机 地 址 空间 的 值 来 初始 化 存储 器 
对 象 。 在 使 用 CL_ MEM_COPY_HOST_PTR 标 志 时 ， 参 数 host_ptr 不 能 为 NULL。 如 下 例子 : 


int host data[1000]; 
for(int i = 0; i < 1000; i++) 
host data[i] = i; 

cl mem memobjct = clCreateBuffer (Context， 
CL MEM READ WRITE | 
CL MEM COPY HOST PTR, 
sizeof (int) * 1000, host data, 
NULL); 加 


在 上 述 例子 中 ， 存 储 器 对 象 memobject 初 始 值 为 0，1，2，3，.…，999。 


3) CL MEM _USE HOST_PTR: 直接 使 用 主机 端 上 已 经 分 配 好 的 内 存 空间 给 设备 使 用 ， 内 核 在 设备 上 执行 时 将 host_ptr 指 
向 的 内 容 缓冲 到 对 应 的 设备 上 。 在 使 用 CL MEM_USE_HOST_PTR 时 ，host_ptr 不 能 为 NULL。 需 要 注意 的 是 ， 虽 然 使 用 了 主机 
端 已 存在 的 内 存 ， 但 是 创建 的 存储 器 对 象 值 不 一 定 和 原来 的 主机 内 存 相同 ， 这 依赖 于 不 同 OpenCL 的 实现 方式 。 如 下 代码 : 


float data[1000]; 
float *output; 
for(int i = 0; i < N; i++) 
data[i] = 1; 
cl mem bufferA = clCreateBuffer (context, 
CL MEM READ ONLY | 
CL MEM USE HOST PTR, 


sizeof (float) * N,，data，&err);…// 执行 内 核 
output = (cl float *)clEnqueueMapBuffer (cmdqueue, bufferA, 
CL TRUE, 
CL MAP WRTTE, 0, 
sizeof (float) * 1000, 
0, NULL, NULL, &err); 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15493/0EBPS/Text/... 


以 上 代码 ， 在 笔者 AMD A10-6400P 的 GPU 执行 后 ，data 和 output 数 组 中 的 值 是 一 致 的 。 


CL MEM HOST WRITE ONLY、CL MEM HOST READ ONLY 和 CL MEM HOST NO ACCESS 用 于 描述 主机 访问 属 
性 。 对 于 存储 器 对 象 ， 除 了 内 核 函 数 的 访问 ， 其 他 的 访问 基本 都 是 主机 访问 ， 如 clIEnqueueRead/WriteBuffer。 在 存储 器 对 象 
分 配 时 设置 主机 访问 属性 后 ， 如 果 随 后 的 主机 代码 对 存储 器 对 象 的 访问 属性 与 分 配 时 设 定 主机 访问 属性 不 同 ， 则 有 运行 时 错误 。 
例子 如 下 : 


float src[1000]; 
for(int 1 = 0; i < 1000; i++) 
src[i] = i; 
cl mem mem = clCreateBuffer (context, 
CL MEM HOST READ ONLY | 
CL MEM READ WRITE, 
sizeof (float) * 1000, NULL, &err); 
clEnqueueWriteBuffer (cmdQueue0, mem, CL TRUE, 0, 
sizeof (float) * 1000, src, 0, NULL, NULL); 


以 上 代码 在 创建 缓冲 时 设置 主机 内 能 读 ， 而 接 下 来 的 代码 却 对 缓冲 进行 写 操作 。 在 运行 程序 时 ， 则 有 
CL_INVALID_OPERATION 错 误 。 


5.2 ”图 像 对 象 和 采样 器 对 象 


图 像 处 理 在 高 性 能 计算 应 用 中 是 很 重要 的 。 在 OpenCL 中 ， 为 存储 器 对 象 提供 了 一 个 特别 的 类 型 来 存储 1 维 、2 维 或 者 3 维 纹 
理 、 帧 缓冲 或 图 像 。 这 个 特别 的 类 型 就 是 图 像 对 象 。 图 像 对 象 与 缓冲 区 对 象 一 样 也 是 用 cL_ mem 数 据 类 型 来 表示 。 但 是 图 像 对 象 
封装 了 一 个 图 像 的 多 种 信息 : 


` 图 像 大 小 : 2 维 图 像 的 宽度 和 高 度 ， 以 及 3 维 图 像 的 深度 。 


. 图 像 格式 : 内 存 中 图 像 像素 的 位 深度 和 布局 。 


: 存储 器 访问 标志 : 图 像 是 只 读 、 只 写 还 是 可 读 可 写 。 内 核 从 图 像 对 象 获取 数据 时 需要 采样 器 。 采 样 器 告诉 图 像 读 取 函 数 如 
何 访问 图 像 。 


坐标 模式 : 从 图 像 获取 数据 所 用 的 纹理 坐标 规格 化 至 范围 [0…1]， 还 是 范围 [0…image_dim-1]。 
. 寻 址 模式 : 当 坐 标 超 出 图 像 边 界 时 ， 从 图 像 获取 数据 的 行为 。 


` 过 滤 模 式 : 从 图 像 获取 数据 时 ， 是 取 一 个 样本 还 是 使 用 多 个 样本 过 滤 。 


5.3 管道 


在 OpenCL 2.0 中 增加 一 种 新 的 工作 机 制 用 于 在 不 同 内 核 间 传递 数据 ， 这 种 新 的 机 制 就 是 管道 (pipe) 。 管 道 是 一 种 以 先进 
先 出 (First Input First Output，FIFO) 的 顺序 存储 数据 的 存储 器 对 象 。 管 道 对 象 包含 有 包 (内 核 类 型 对 象 ) 的 集合 空间 ， 这 
些 数 据 包 在 管道 中 是 有 序 放置 的 。 管 道 只 能 被 内 核 函数 访问 ， 而 不 能 被 主机 访问 。 一 个 管道 对 象 包 含 了 包 的 字 节 大 小 、 包 中 最 大 
容量 、 当 前 管道 中 包 的 数目 信息 和 数据 包 。 


5.4 ”存储 器 对 稼 数据 传输 


OpenCL 中 提供 了 对 存储 器 对 象 操作 的 API， 可 以 实现 主机 向 设备 、 设 备 向 主机 、 设 备 间 数 据 传输 和 存储 器 对 象 初始 化 等 操 
作 。 现 在 我 们 就 来 详细 讲述 这 些 API 函 数 的 作用 及 其 使 用 方法 。 


5.5 ”共享 虚拟 存储 器 


在 OpenCL 2.0 中 ， 一 个 显著 的 新 特性 就 是 共享 虚拟 存储 器 (Shared Virtual Memory，SVM) 。SVM 使 得 将 链表 或 树 这 
样 的 指针 链表 数据 用 OpenCL 处 理 变 得 非常 容易 。 


如 图 5-11 所 示 ， 在 OpenCL 1.2 中 ， 标 准 不 保证 指向 主机 端 数据 的 指针 ， 在 设备 内 核 中 能 够 访问 这 些 数 据 ; 也 不 能 保证 指向 
设备 端 数据 的 指针 ， 在 主机 端 能 够 访问 这 些 数 据 。 在 OpenCL 1.2 中 指针 数据 无 法 在 主机 与 设备 端 共享 ， 应 用 也 需要 相应 地 重新 
设计 和 修改 ， 如 用 索引 代 蔡 指针 ， 并 且 把 数据 在 主机 与 设备 间 拷 贝 。 


OpenCL 设 备 


ttle rp ee 


图 5-11 OpenCL 1.2 中 主机 与 设备 相互 独立 的 地 址 空间 


如 图 5-12 所 示 ，OpenCL 2.0 SVM 把 主机 与 设备 地 址 空间 抽象 成 一 个 独立 的 地 址 空间 ， 主 机 与 设备 都 能 够 直接 访问 这 个 地 
址 空间 。 这 使 得 设备 端 指 向 主机 地 址 空间 的 指针 ， 内 核 也 能 直接 访问 这 些 数 据 ; 主机 端 指向 设备 地 址 空间 的 指针 ， 主 机 也 能 直接 
访问 这 些 数 据 。 不 用 在 主机 与 设备 间 进 行 数据 拷贝 ， 直 接 使 用 共享 指针 就 可 以 了 。 需 要 注意 的 是 ，OpenCL 2.0 SVM 只 是 在 软 
件 层面 虚拟 出 来 的 共享 地 址 空间 ,方便 了 编程 人 员 并 行 指针 链表 数据 的 应 用 ， 避 免 了 主机 与 设备 间 数 据 拷贝 ， 这 么 做 可 能 会 提升 
程序 性 能 。 但 是 在 真实 硬件 环境 下 ， 主 机 与 设备 有 各 自 独立 的 地 址 空间 。 


5.6 存储 器 一 致 性 模型 


在 基于 CPU 的 串 行 应 用 程序 上 ， 程 序 员 一 般 对 存储 器 访问 次 序 不 会 太 过 敏感 。 因 为 在 CPU 上 ， 应 用 程序 一 般 都 是 用 普通 的 
读 写 操作 (尽管 现在 有 些 CPU 也 支持 弱 次 序 访 存 操作 ， 但 对 于 串 行 应 用 程序 来 说 ， 人 存储 器 一 致 性 会 得 到 保存 ) ， 这 些 读 写 操作 
的 效果 都 会 严格 按照 程序 串 行 次 序 ， 比 如 像 以 下 代码 : 

/* 加 volatile 关 键 字 确 保 当 Ve 此 数组 的 修改 操作 对 其 他 线程 可 见 , 即 显 式 使 用 加 载 /存储 操作 ,而 不 是 直接 在 寄存 器 中 操作 */ 

7 }; 


volatile int a[] = { 1 
int x = a[0]; 


1]; 
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上 述 代 码 如 果 是 在 一 块 双核 的 CPU 上 执行 ， 那 么 在 其 中 一 个 核心 上 执行 完 上 述 代 码 ， 而 在 另 一 个 核心 上 去 观察 ， 肯 定 观 察 
到 af[0] 先 被 写 完 ， 然 后 再 是 a[1] 被 写 完 。 在 GPGPU 上 不 会 去 保证 这 种 存储 器 次 序 一 致 性 。 也 就 是 说 ， 如 果 我 们 在 某 个 工作 项 上 执 
行 上 述 代 码 ， 在 另 一 个 工作 项 上 可 能 会 观察 到 a[1] 先 完成 存储 ， 然 后 再 是 a[0]。 换 句 话 说 ， 在 另 一 个 工作 项 上 ， 读 取 a[O] 时 可 能 
仍然 是 1， 而 读 取 a[1] 时 值 已 经 是 4 了 。 由 于 对 于 大 规模 数据 并 行 访 存 来 说 ， 要 保证 存储 次 序 一 致 性 需要 非常 昂贵 的 开销 ， 而 且 在 
很 多 情况 下 ， 每 个 工作 项 只 需 关 心 自己 读 写 的 那 块 数据 而 不 去 管 其 他 工作 项 读 写 的 数据 ， 因 此 GPGPU 一 般 都 会 使 用 弱 存 储 器 次 
序 。 而 如 果 一 些 工作 项 需要 使 用 其 他 工作 项 产 出 的 数据 ， 那 么 可 以 使 用 我 们 下 面 讲述 的 更 强 的 存储 器 次 序 或 第 6 章 中 所 描述 的 同 
步 方法 。 


OpenCL 2.0 提 供 了 若干 种 存储 器 次 序 ， 可 利用 它们 对 不 同 执行 单元 所 共享 的 原子 对 象 进行 原子 操作 。 这 里 的 执行 单元 是 指 
硬件 上 的 线程 ， 比 如 CPU 上 的 一 个 核心 或 是 GPU 上 的 一 个 处 理 元 素 。 这 些 存储 器 次 序 一 般 同时 包含 了 两 种 不 同 的 语义 : 一 种 是 
在 当前 执行 单元 上 下 文中 ， 相 继 几 个 存储 器 操作 之 间 的 执行 次 序 (按照 程序 次 序 严格 执行 ， 还 是 可 以 进行 相互 交换 前 后 次 序 执 
行 ) ; 另 一 种 是 在 某 一 执行 单元 中 ， 对 另 一 个 执行 单元 进行 存储 器 操作 所 产生 的 副作用 是 否 可 见 。 而 这 些 存 储 器 次 序 也 完全 基于 
ISO/IEC 9899:2011 ( 即 C11) 标准 中 的 存储 器 模型 。 以 下 介绍 每 种 存储 器 次 序 的 特性 及 用 法 ， 并 列 出 相关 示例 代码 。 而 对 原子 
操作 API 的 详细 介绍 请 见 第 6 章 。 


(1) memory order relaxed 


memory_order_relaxed (松弛 的 存储 器 次 序 ) ， 该 存储 器 次 序 意 味 着 对 存储 器 次 序 不 做 任何 限制 。 如 果 用 这 个 存储 器 次 序 
进行 原子 操作 (如 使 用 atomic fetch_add) ， 原 子 对 象 也 能 安全 地 递增 。 但 是 该 原子 操作 无 法 保证 其 他 访 存 操作 与 该 操作 之 间 
的 次 序 。memory_order relaxed 也 是 次 序 最 弱 的 。 


比如 ， 像 以 下 代码 : 


global volatile atomic int atom obj = ATOMIC VAR INIT(10) 


global Volatile int a = 100; 
atomic fetch aqq explicit (&atom obj, 1, memory order relaxed); 
a += 10; 


对 于 这 段 代 码 ，atom_obj 肯 定 能 发 生 递 增 操作 ， 但 是 在 当前 执行 单元 中 可 能 观察 到 a 变量 先 被 修改 ， 然 后 atom_obj 再 被 修 
改 ， 即 这 个 修改 次 序 没有 严格 按照 程序 次 序 进行 。 另 外 ， 对 于 其 他 执行 单元 而 言 ， 对 atom_obj 原 子 对 象 以 及 变量 a 的 修改 可 能 不 
可 见 。 下 面 再 举 一 个 看 上 去 更 极端 但 很 有 可 能 发 生 的 例子 : 


global Volatile atomic int atomA = ATOMIC VAR INIT (10); 
global volatile atomic int atomB = ATOMIC VAR INIT (100); 
// 执行 单元 0 
int b = atomic load explicit(&atomB, memory order relaxed); 
atomic store explicit(&atomA, b, memory order relaxed); 

// 执行 单元 1 

int a = atomic load explicit(&atomA, memory order relaxed); 
atomic store explicit(&atomB, 50, memory order relaxed); 


对 于 上 述 代码 ， 我 们 假定 执行 单元 1 在 执行 单元 0 执行 完 后 立即 执行 。 我 们 看 到 一 开始 atom 人 A 原子 对 象 的 值 被 初始 化 为 
10，atomB 原 子 对 象 被 初始 化 为 100。 而 在 执行 单元 0 中 先 用 memory_order_relaxed 和 存储 器 次 序 读 atomB 的 值 ， 然 后 再 把 该 值 
写 到 atomA 原 子 对 象 中 。 对 于 这 两 个 一 读 一 写 ， 在 执行 单元 0 中 肯定 会 按照 程序 次 序 进行 。 因 为 就 目前 而 言 ， 通 常 不 会 有 处 理 器 
实现 这 么 一 种 存储 器 次 序 : 在 同一 个 执行 单元 的 上 下 文中 ， 先 读 取 某 个 存储 单元 的 值 A， 然 后 把 读 到 的 值 A 写 到 另 一 个 存储 单元 
中 ， 在 此 过 程 中 读 写 次 序 不 能 保证 原始 的 程序 次 序 !1]。 除 非 执行 类 似 上 述 执行 单元 1 中 所 示 的 代码 ， 先 读 取 对 象 A， 然 后 写 的 是 
对 象 B 的 值 ， 那 么 这 两 者 之 间 的 操作 次 序 不 需要 严格 按照 程序 次 序 执行 。 


执行 单元 1 中 ， 从 atom 人 A 原子 对 象 读 到 的 值 没有 在 原子 对 象 B 的 存储 操作 中 使 用 ， 也 就 是 说 ， 这 两 个 操作 是 完全 相互 独立 
的 ,没有 任何 依赖 。 因 此 ， 这 两 个 操作 如 果 都 使 用 memory_order_relaxed 存 储 器 次 序 ， 那 么 即便 在 当前 执行 单元 的 上 下 文中 也 
是 不 会 保证 程序 次 序 的 。 这 就 意味 着 如 果 处 理 器 支持 无 序 执行 ( 即 Out-of-Order execution， 简 称 OoO 执 行 ) ， 那 么 处 理 器 实 
现 完全 可 以 先 做 下 面 的 存储 操作 ， 再 做 上 面 的 加 载 操作 (这 个 同 第 一 个 例子 中 的 情况 一 样 ) 。 另 外 ， 由 于 执行 单元 0 的 加 载 与 存 
储 操作 使 用 的 是 memory_order_relaxed 存 储 器 次 序 ， 因 此 这 两 个 操作 在 执行 单元 1 中 可 能 不 会 立刻 被 观察 到 。 然 后 ， 结 合 执行 
单元 1 中 本 身 存在 的 先 执行 存储 、 后 执行 加 载 的 操作 ， 那 么 最 终 执 行 的 流程 可 能 是 : 先 做 执行 单元 1 中 的 
atomic store explicit (&atomB,50,memory_order relaxed) ， 然 后 是 执行 单元 0 的 所 有 操作 ， 最 后 是 执行 单元 1 的 int 
a=atomic load explicit (&atomA,memory order relaxed) 。 当 然 ， 这 仅仅 是 可 能 的 一 种 排列 方式 。 也 不 排除 整个 执行 恰好 
按照 程序 次 序 完 成 ， 这 都 取决 于 当前 硬件 的 实现 以 及 当前 处 理 器 的 执行 状态 。 如 果 按 照 上 面 那 种 流程 执行 完 ， 那 么 执行 单元 0 中 
的 局 部 变量 b 与 执行 单元 1 中 的 局 部 变量 a 全 都 是 ?50。 而 且 原 子 对 象 atomA 的 值 也 是 50。 


(2) memory order acduire 


memory_order_acquire (具有 获得 语义 的 存储 器 次 序 ) ， 可 用 于 如 栅栏 或 原子 操作 。 其 作用 是 从 和 它 进行 同步 的 释放 操作 
那里 “获得 ”副作用 (所 谓 副 作用 就 是 对 相关 数据 的 修改 ) : 如 果 一 次 获得 操作 跟 一 次 释放 操作 进行 同步 ， 那 么 执行 单元 的 获得 
操作 将 会 看 到 在 那个 释放 操作 之 前 的 所 有 副作用 (并 且 也 有 可 能 看 到 后 续 的 副作用 ) 。 而 在 使 用 memory_order_ acquire 存 储 器 
次 序 的 当前 执行 单元 中 ， 其 后 面 的 访 存 操作 不 会 被 重新 编排 到 它 之 前 执行 。 我 们 在 编写 OpenCL 程 序 时 可 以 使 用 一 个 “获得 ” 语 
义 以 安全 地 观察 到 另 一 个 执行 单元 对 某 些 共享 存储 变量 的 修改 情况 。 例 如 : 


global Volatile atomic int atomA = ATOMIC VAR INIT (10); 
global volatile atomic int atomB = ATOMIC VAR INIT (20); 
// 在 执行 单元 0 中 
atomic fetch aqq explicit (&atomA, 1, memory order relaxed); 
atomic store explicit(&atomB, 0, memory order release); 

// 在 执行 单元 1 中 

int b = atomic load explicit(&atomB, memory order acquire); 
int a = atomic load explicit(&atomA, memory order relaxed); 


上 述 代 码 中 ， 我 们 假定 执行 单元 0 完全 把 两 条 原子 操作 执行 完 后 ， 执 行 单元 1 才 执 行 。 那 么 在 执行 单元 1 中 ， 用 获得 语义 的 存 
储 器 次 序 对 atomB 原 子 对 象 做 原子 加 载 操作 之 后 ， 它 已 经 观察 到 了 在 执行 单元 0 中 最 后 用 释放 语义 的 存储 器 次 序 对 atomB 原 子 对 
象 做 存储 操作 的 副作用 。 


在 执行 单元 0 中 ，atomic fetch_add explicit 的 操作 不 会 被 重新 安排 到 atomic_store_explicit 之 后 去 做 。 但 在 执行 单元 1 
中 ， 执 行 单元 0 中 对 atomA 的 修改 操作 可 能 仍然 不 可 见 ， 所 以 观察 到 的 执行 单元 0 中 的 atomA 与 atomB 的 访 存 完成 次 序 也 未 必 跟 
执行 单元 0 中 完成 的 次 序 一 样 。 


另外 ， 在 执行 单元 1 中 ， 第 二 条 语句 的 执行 不 会 被 安排 到 第 一 条 之 前 ， 所 以 存储 器 次 序 是 先 完成 对 变量 b 的 加 载 操 作 ， 然 后 
再 去 做 对 变量 a 的 加 载 操 作 。 当 然 ， 变 量 a 取 到 的 值 可 能 是 10， 也 有 可 能 是 11。 


(3) memory _ order release 


memory_order release (具有 释放 语义 的 存储 器 次 序 ) ， 可 用 于 栅栏 或 原子 操作 。 其 作用 是 “释放 ”与 它 进行 同步 的 获得 
操作 的 副作用 。 在 释放 之 前 的 所 有 副作用 都 被 包含 在 这 个 释放 操作 中 。 在 执行 释放 语义 的 当前 执行 单元 中 ， 执 行 释放 语义 的 访 存 
操作 之 前 所 有 访 存 操作 不 会 被 重新 安排 到 此 释放 语义 访 存 操作 之 后 执行 。 我 们 在 编写 OpenCL 程 序 时 可 以 使 用 一 个 “释放 ”语义 
以 将 当前 执行 单元 对 某 些 共享 存储 变量 的 存储 操作 暴露 给 其 他 执行 单元 ， 使 得 其 他 执行 单元 能 安全 地 观察 到 这 些 共享 存储 变量 已 
被 修改 。 


这 里 需要 注意 的 是 ， 获 得 语义 无 须 一 定 要 跟 一 个 指定 的 释放 语义 进行 同步 。 也 就 是 说 ， 在 某 一 执行 代码 上 下 文中 ,使 用 了 一 
次 获得 语义 之 后 ， 后 面 不 是 一 定 得 出 现 一 次 释放 语义 。 像 上 述 代码 例子 中 获得 语义 与 释放 语义 也 不 是 成 双 成 对 出 现 的 。 


如 上 面 的 那个 例子 ， 在 执行 单元 0 中 ， 第 一 条 使 用 松弛 存储 器 次 序 的 存储 操作 不 会 在 第 二 条 使 用 释放 语义 的 存储 操作 之 后 执 
行 。 所 以 ， 释 放 语 义 是 在 其 之 前 所 有 访 存 操作 完成 后 再 完成 执行 的 。 


(4) memory order acq rel 


memory_order acq_rel (同时 具备 获得 语义 与 释放 语义 的 存储 器 次 序 ) ， 它 具有 memory_order _ acquire 与 
memory_order_release 存 储 器 次 序 的 特性 。 该 存储 器 次 序 一 般 用 于 读 -修改 - 写 操 作 。 在 使 用 memory_order_acq_rel 存 储 器 次 
序 的 当前 执行 单元 上 下 文中 ， 对 某 个 原子 对 象 使 用 memory_order_acq_rel 存 储 器 次 序 进行 读 -修改 - 写 操 作 时 ， 在 加 载 该 原子 对 
象 之 后 的 所 有 访 存 操作 都 不 能 重新 安排 到 该 加 载 操作 之 前 ;而 在 修改 完 该 原子 对 象 进行 存储 操作 时 ， 所 有 在 此 存储 操作 之 前 的 访 
存 操作 都 不 能 重新 安排 到 此 存储 操作 之 后 。 例 如 : 


global volatile atomic int atomA = ATOMIC VAR INIT (10) ， 
global volatile atomic int atomB = ATOMIC VAR INIT (20); 
global volatile int C = 0; 
// 在 执行 单元 0 中 

atomic fetch aqq explicit (&atomA, 1, memory order relaxed); 
atomic store explicit(&atomB, 0, memory order release); 


// 在 抗 行 单元 I 中 


atomic fetch add explicit (&atomA, 1, memory order relaxed); 
atomic fetch aqq explicit (&atomB, 1, memory order acq rel); 
C++? 

// 在 执行 单元 2 中 

int b = atomic load explicit(&atomB, memory order acquire); 
int a = atomic load explicit(&atomA, memory order relaxed); 


假设 ,执行 单元 0 执行 结束 后 紧 接 着 做 执行 单元 1， 执 行 单元 1 完成 后 紧 接着 做 执行 单元 2。 这 里 ,我 们 在 执行 单元 1 中 看 到 第 
二 条 原子 加 法 操作 使 用 了 memory_order_acq_rel。 说 明 在 对 atomB 做 原子 加 法 时 先 采 用 了 获得 语义 ， 这 样 做 就 是 为 了 在 修改 
atomB 的 值 之 前 先 确保 atomB 在 执行 单元 0 中 的 修改 在 执行 单元 1 中 可 见 。 而 在 执行 单元 0 中 ， 正 好 对 atomB 采 用 了 
memory_order_release 存 储 器 次 序 ， 因 此 这 里 用 获得 语义 可 以 确保 在 做 此 原子 加 法 之 前 ，atomB 已 经 是 被 执行 单元 0 更 新 过 了 


( 即 确保 atomB 当 前 值 为 0) 。 然 后 ， 在 原子 加 法 对 atomB 修 改 之 后 写 回 存储 位 置 时 则 立即 及 用 了 释放 语义 ， 使 得 在 执行 单元 2 
中 完全 可 以 通过 获得 语义 来 观察 到 atomB 被 执行 单元 1 修改 了 。 所 以 ，memory_order_acq_rel 这 个 存储 器 次 序 作 用 在 一 个 原子 
的 读 -修改 - 写 操作 上 时 ， 其 实 是 如 下 流程 (当然 ， 整 个 流程 是 原子 的 ， 即 不 可 被 打 断 、 不 可 被 分 割 的 ) : 先 用 获得 语义 加 载 该 原 
子 对 象 ， 然 后 对 该 原子 对 象 进行 更 新 ， 最 后 用 释放 语义 来 存储 更 新 后 的 原子 对 象 。 


在 执行 单元 1 中 ， 原 子 对 象 atomA 的 修改 不 会 被 重新 安排 到 对 原子 对 象 atomB 的 修改 之 后 ， 而 对 普通 变量 c 的 递增 操作 也 不 
会 被 重新 安排 到 atomB 原 子 对 象 修改 之 前 。 因 此 ， 执 行 单元 1 中 3 条 语句 的 执行 都 按照 整个 程序 次 序 进行 。 而 由 于 在 执行 单元 0 和 
执行 单元 1 中 对 atomA 原 子 对 象 使 用 的 都 是 松弛 存储 器 次 序 进行 修改 ， 对 其 他 执行 单元 都 不 可 见 。 因 此 ， 在 执行 单元 2 中 所 获取 
的 atomA 的 值 可 能 都 没 经 过 前 两 个 执行 单元 的 修改 ， 故 在 执行 单元 2 完成 后 ， 变 量 a 的 值 可 能 是 10， 当 然 也 有 可 能 是 11， 或 12。 
但 最 终 程序 全 部 完成 后 ，atomA 的 值 肯定 是 12。 原 子 操作 对 于 该 操作 所 作用 的 原子 对 象 而 言 必定 奏效 。 这 里 仅仅 对 于 存储 器 加 
载 次 序 上 是 松弛 的 ， 也 就 是 说 在 执行 单元 2 中 读 得 比较 快 ， 还 没 等 该 原子 对 象 修改 好 就 把 值 读 进 来 了 。 而 且 对 于 很 多 存储 器 的 实 
现 而 言 ， 加 载 操作 往往 要 快 于 存储 操作 。 尤 其 对 于 含有 Cache 层 级 的 存储 器 系统 而 言 更 是 如 此 。 如 果 是 采用 存储 器 次 序 对 外 不 可 
见 的 操作 ， 在 其 他 执行 单元 所 读 到 的 值 很 可 能 是 该 执行 单元 中 L1 Cache 中 的 脏 数 据 ， 而 Cache 进 行 刷新 也 需要 耗费 一 些 时 间 。 
对 于 弱 存 储 器 次 序 的 访 存 操作 而 言 ， 在 这 里 有 很 多 种 可 能 性 。 


(5) memory order seq cst 


emory_order_seq_cst (程序 次 序 一 致 的 存储 器 次 序 ) 。 它 的 作用 是 每 个 执行 单元 的 加 载 和 存储 都 能 以 程序 次 序 被 观察 到 ， 
并 且 来 自 不 同 执行 单元 的 加 载 和 存储 操作 会 以 简单 的 交错 形式 被 观察 到 。 该 存储 器 次 序 与 nemory_ order acq_rel 语 义 上 差 不 
多 ,不 过 比 memory_order_acq_rel 存 储 器 次 序 义 多 了 一 个 单一 总 和 次 序 ， 即 在 所 有 对 同一 个 共享 的 原子 对 象 使 用 
memory order_ seq_cst 存 储 器 次 序 操作 的 执行 单元 中 所 观察 到 的 修改 都 是 以 相同 的 次 序 完 成 的 。memory_order_ seq_cst 被 称 
为 次 序 一 致 性 的 (sequentially consistent) 存储 器 次 序 。 这 也 是 最 强 的 存储 器 次 序 。 


例如 以 下 程序 : 


global volatile atomic int atomA = ATOMIC VAR INIT (10); 
global volatile atomic int atomB = ATOMIC VAR INIT (20); 

// 在 执行 单元 0 中 

atomic fetch aqq explicit (&atomA, 1, memory order seq cst); 
atomic fetch add explicit (&atomB, 1, memory order seq cst); 
// 在 执行 单元 1 中 

atomic fetch aqq explicit (&atomA, 2, memory order seq cst); 
atomic fetch aqq explicit (&atomB, 2, memory order seq cst); 
// 在 执行 单元 2 中 

int a = atomic load explicit(&atomA, memory order seq cst); 
int b = atomic load explicit(&atomB, memory order seq cst); 


我 们 仍然 假设 先 执行 完 执行 单元 0， 然 后 紧 接 着 做 执行 单元 1， 然 后 再 做 执行 单元 2。 这 里 ， 执 行 单元 0 和 执行 单元 1 中 都 使 用 
了 memory_order seq_cst 存 储 器 次 序 ， 并 分 别 对 atomA 与 atomB 做 原子 加 法 操作 。 因 此 ， 不 管 是 在 当前 执行 单元 上 下 文 还 是 
在 其 他 两 个 执行 单元 上 下 文中 ， 对 atomA 的 修改 次 序 都 是 按照 执行 单元 0 中 的 加 1 操作 ， 然 后 做 执行 单元 1 中 的 加 2 操作 。 而 
atomB 也 是 同样 。 而 且 ，atomB 的 修改 操作 都 发 生 在 atomA 之 后 。 因 此 ， 在 执行 单元 2 中 ， 所 观察 到 的 整个 对 atomA 与 atomB 
的 修改 过 程 是 : atomA++; atomB++; atomA+=2; atomB+=2; 因此 ， 执 行 单元 2 中 变量 a 的 值 一 定 是 13， 而 变量 b 的 值 也 
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定 是 23。 


综 上 所 述 ， 除 了 memory_order_seq_cst 之 外 的 所 有 存储 器 次 序 ， 在 对 某 一 个 执行 单元 的 访 存 操作 使 用 该 次 序 时 ， 都 无 法 保 
证 在 其 他 执行 单元 中 能 以 相同 的 访 存 次 序 被 观察 到 。 而 对 于 memory_order_acquire、memory_order_release 和 
memory_order acq _rel 只 能 观察 到 其 副作用 。 只 有 memory order seq_cst 才 能 保证 其 他 执行 单元 能 同时 观察 到 副作用 与 严格 
的 程序 次 序 。 


无 论 指定 哪 种 存储 器 次 序 ， 要 跨 整 个 异 构 平台 对 存储 器 操作 添加 约束 ， 都 会 给 程序 执行 增加 相当 大 的 负荷 。 因 此 ,OpenCL 


2.0 同 时 也 提供 了 存储 器 次 序 强化 的 作用 域 ， 指 定 在 哪 一 类 存储 区 域 上 使 用 指定 的 存储 器 次 序 。 因 此 ， 几 乎 所 有 的 原子 操作 APl 中 
都 带 有 memory_scope 类 型 的 参数 ， 它 是 一 个 枚 举 类 型 ， 具 体 枚 举 值 如 下 : 


1) memory scope _work_item: 指定 的 存储 器 次 序 约束 只 作用 于 当前 工作 项 内 。 请 注意 ， 这 个 存储 作用 域 只 能 在 调用 
atomic work_item fence 函 数 并 且 标 志 参 数 为 CLK IMAGE_ MEM_FENCE 时 才能 使 用 。 因 此 ， 在 某 个 工作 项 内 需要 做 存储 器 次 
序 限制 的 场合 十 分 稀少 。 


2) memory_scope_work_group: 指定 的 存储 器 次 序 约束 只 作用 于 单个 工作 组 内 的 所 有 工作 项 。 这 个 存储 作用 域 一般 是 


导 最 多 的 。 


3) memory_scope_device: 指定 的 存储 器 次 序 作用 于 单个 计算 设备 中 的 所 有 工作 项 。 一 次 访 存 操作 的 副作用 要 对 一 个 设 
备 中 的 所 有 工作 项 可 见 ， 这 个 开销 比 一 个 工作 组 内 可 见 的 开销 显然 就 要 大 很 多 。 


4) memory_ scope all_svm_devices: 指定 的 存储 器 次 序 作用 于 跨 多 个 计算 设备 的 所 有 工作 项 以 及 主机 端 ( 当 使 用 SVM 
时 ) 。 使 用 memory scope all svm_devices 存 储 区 域 ， 对 某 个 缓存 (不 具有 CL_MEM_SVM_ATOMICS 标 志 ) 缓存 所 执行 的 一 
次 释放 语义 次 序 访 存 操作 ， 应 至 少 实现 memory_scope_device 级 别 的 存储 器 次 序 可 见 性 ， 使 得 在 一 个 队列 同步 点 (如 一 个 
OpenCL 事 件 ) 能 对 该 缓存 完成 完整 的 同步 。 


当 分 析 存 储 器 操作 的 次 序 约束 时 ， 这 些 存储 区 域 (作用 域 ) 定义 了 一 个 可 见 性 的 层级 。 例 如 ， 如 果 一 个 程序 员 知道 某 个 存储 
器 操作 次 序 将 与 一 组 来 自 单个 工作 组 内 的 工作 项 关联 ， 那 么 实现 在 跨 多 个 计算 设备 的 场景 下 ， 需 要 在 各 自 计算 设备 的 同一 个 上 下 
文 〈 即 一 个 工作 组 内 的 工作 项 ) 内 来 管理 存储 器 次 序 ， 以 节省 开销 。 当 对 全 局 存储 器 进行 使 用 时 ， 所 有 存储 器 区 域 都 能 有 效 使 
用 。 


大 量 OpenCL 程 序 都 可 以 使 用 一 个 简化 的 存储 器 模型 〈 即 仅 使 用 松弛 的 存储 器 次 序 ) 进行 编写 。 不 过 要 实现 这 个 目标 应 该 参 
考 以 下 准则 (OpenCL 2.0 之 前 没有 引入 存储 器 次 序 这 个 概念 ， 因 此 适用 于 以 下 准则 ) 。 


准则 1: 要 安全 地 管理 全 局 共享 全 局 存储 器 对 象 ， 应 该 经 由 主机 端 命令 队列 所 定义 的 同步 点 。 
准则 2: 在 工作 组 内 做 底层 同步 应 该 要 用 诸如 barrier 这 样 的 工作 组 函数 。 


准则 3: 如 果 系 统 分 配 的 或 具有 原子 支持 的 细 粒 度 SVM 缓 存 ， 想 使 用 顺序 一 致 性 行为 ， 那 么 只 能 对 
memory scope all svm_devices 存 储 区 域 使 用 memory_order seq_cst 存 储 器 次 序 。 


准则 4: 如 果 想 要 对 非 系统 分 配 的 或 带 有 原子 支持 的 细 粒 度 的 SVM 缓存 使 用 顺序 一 致 性 行为 ， 那 么 只 要 对 
memory scope_device 存 储 区 域 使 用 memory_order seq_cst 存 储 器 次 序 的 访 存 操作 即 可 。 


准则 5: 确保 OpenCL 程 序 没有 数据 竞争 。 


如 果 在 一 个 OpenCL 2.0 程 序 中 遵循 了 以 上 5 条 准则 ， 那 么 我 们 可 以 不 用 太 过 关心 隐藏 在 松弛 存储 器 次 序 背后 的 细节 ， 可 以 
直接 使 用 默认 的 松弛 存储 器 次 序 。 


[1 这 里 牵涉 到 指令 执行 之 间 存 在 寄存 器 依赖 的 情况 ， 若 前 后 两 条 指令 罕 涉 到 寄存 器 依赖 ， 当 前 处 理 器 的 执行 单元 不 会 做 无 序 执 
行 ， 存 储 器 请 求 也 会 按 程序 次 序 进行 ， 因 为 对 于 后 一 条 存储 操作 而 言 必 须 确 保 前 面 的 变量 b 的 值 已 经 获得 才 会 执行 。 


5.7 本章 小 结 


本 章 详细 介绍 了 OpenCL 的 存储 器 模型 ， 包 括 缓冲 区 、 图 像 对 象 、 采 样 器 对 象 和 管道 对 象 ， 并 且 详 细 解释 了 如 何在 OpenCL 
中 使 用 这 些 对 象 。 接 着 介绍 了 如 何在 主机 存储 器 和 这 些 存储 器 对 象 之 间 ， 以 及 存储 器 对 象 之 间 进 行 数据 传输 的 机 制 。 然 后 介绍 了 
共享 虚拟 存储 器 SVM， 以 及 如 何 使 用 SVM 统 一 设备 存储 器 和 主机 存储 器 。 最 后 介绍 了 OpenCL 的 存储 器 一 致 性 模型 ， 通 过 存储 
器 一 致 性 模型 ， 程 序 员 能 够 知道 代码 中 的 操作 顺序 。 人 存储 器 一 致 性 是 OpenCL 程 序 同步 的 基础 ， 第 6 章 我 们 将 介绍 OpenCL 的 同 
步 机 制 和 事件 机 制 ， 通 过 事件 ， 程 序 能 够 指定 内 核 的 执行 依赖 关系 。 


第 6 章 OpenCL 同 步 及 事件 机 制 


本 章 将 摘 述 OpenCL 中 的 各 种 同步 机 制 ， 并 且 从 主机 端 到 设备 端 ， 从 粗 粒度 到 细 和 粒度， 由 外 到 内 的 层次 结构 来 进行 讲解 。 


对 于 主机 端的 OpenCL API 而 言 ， 所 涉及 的 同步 就 是 命令 同步 。 在 一 个 命令 队列 中 所 执行 的 多 个 命令 根据 当前 的 业务 需求 可 
能 需要 保持 一 定 的 前 后 顺序 。 例 如 ， 我 们 先 使 用 clEnqueueWriteBuffer 接 口 将 指定 的 一 块 数据 传输 到 设备 端的 存储 空间 中 ， 然 
后 再 调用 clEnqueueNDRangeKernel| 接 口 来 执行 设备 端的 内 核 程 序 ， 最 后 将 设备 端的 结果 通过 clEnqueueReadBuffer 接 口传 回 
主机 端的 存储 空间 。 这 三 个 命令 在 执行 时 必须 按照 上 述 的 前 后 顺序 ， 否 则 最 后 获得 的 结果 就 可 能 会 有 问题 。 


而 对 于 设备 端的 OpenCL 内 核 程序 而 言 ， 需 要 的 同步 情景 就 更 丰富 了 。 例 如 ， 多 个 工作 组 之 间 的 数据 同步 ;一 个 工作 组 中 特 
定 几 个 工作 项 的 数据 同步 ;存储 器 访问 次 序 的 可 见 性 与 一 致 性 ;多 个 工作 项 对 同一 仓储 地 址 的 读 写 同步 。 


请 大 家 注意 ， 从 本 章 到 第 8 章 ， 所 有 示例 代码 在 主机 端 所 用 的 编译 器 都 是 支持 GNU C11 标 准 规范 的 编译 器 。 因 此 ， 如 果 各 位 
读者 用 的 是 Linux 环 境 ， 那 么 请 使 用 -std=gnu11， 如 果 不 支持 C11 的 编译 器 ， 使 用 GNU99 也 没有 问题 ， 即 -std=gnu99。 而 如 果 
各 位 读者 在 Windows 环 境 中 ， 使 用 Visual Studio 的 话 ， 请 至 少 使 用 2013 版 本 ， 因 为 只 有 从 VS 2013 版 本 起 ，Visual C 编 译 器 才 
支持 C99 标 准 ， 各 位 读者 可 以 在 项 目 偏好 中 进行 设置 。 另 外 ， 源 文件 名 的 后 缀 名 请 使 用 .c， 不 要 使 用 .cpp， 因 为 某 些 编译 器 在 
C++ 中 是 不 支持 C99 语 法 特性 的 。 如 果 各 位 读者 使 用 的 是 OS X 10.10 (Yosemite) ， 那 么 当前 的 Xcode 6 的 Apple LLVM 6.1 编 
译 器 默认 就 是 GNU99， 无 须 做 额外 的 设置 。 


6.1 主机 端的 OpenCL 同 步 


主机 端的 同步 主要 是 对 命令 队列 中 的 OpenCL 命 令 进 行 同步 。 我 们 在 第 3 章 中 已 经 谈 到 了 一 些 cIEnqueue 系 的 AP1， 该 系列 
APlI 用 于 将 特定 的 命令 放 入 命令 队列 供 OpenCL 系 统 进 行 排队 执行 。 默 认 情 况 下 ， 命 令 队列 是 顺序 执行 命令 的 。 若 当前 OpenCL 
环境 支持 无 序 执行 命令 ， 使 用 CL QUEUE OUT OF ORDER EXEC_MODE ENABLE 属 性 则 可 以 在 创建 命令 队列 时 指定 命令 ， 可 
以 不 按照 次 序 执行 。 


在 默认 情况 下 ， 虽 然 命令 的 执行 已 经 是 按照 次 序 了 ， 不 过 OpenCL 的 实现 中 往往 是 在 发 射 了 第 一 条 命令 之 后 不 等 它 执行 完 ， 
而 继续 发 射 第 二 条 命令 进行 执行 。 所 以 ， 有 一 些 cIEnqueue 系 命令 含有 一 个 布尔 类 型 参数 用 来 指定 此 命令 是 否 阻塞 。 如 果 是 
CL_ TRUE， 那么 这 个 命令 操作 时 不 会 立刻 返回 当前 的 <IEnqueue 的 调用 ， 而 是 等 该 操作 完全 执行 完毕 之 后 才 会 返回 。 这 样 就 保 
证 了 这 些 命令 对 于 其 后 续 的 命令 而 言 是 按 前 后 次 序 顺序 完成 执行 的 。 


OpenCL 提 供 了 clFlush 函 数 API 用 于 发 射 调 用 此 函数 之 前 的 所 有 在 指定 命令 队列 中 的 命令 。 还 提供 了 clFinish 函 数 API 用 于 等 


待 调用 此 函数 之 前 的 所 有 在 指定 


下 面 我 们 通 


过 使 用 一 个 完整 


命令 队列 中 的 命令 执行 完成 。 


A 并 且 ， 本 


章 后 续 的 示例 代码 都 将 基于 下 面 这 
Graphics5000 的 计算 环境 得 出 。 ie LLVM 6.1， 


在 Linux 环 境 下 通过 编译 运行 。 


ifdef APPLE 
include <OpenCL/opencl.h> 
else 
include 
endif 
include 
include 


<CL/cCL.h> 


<stoLoh> 
<string.h> 
include <stdlib.h> 
include <sys/time.h> 
int main (void 


Cl Ant ret 
cl platform id platform id = NULL; 
cl device id device id = NULL; 
cl context context = NULL; 

eal Command | queue command queue 
cl mem srclMemObj] = NULL; 

cl mem src2MemObj] = NULL; 

cl mem dstMemOb] = NULL; 


= NULL; 


char *kernelSource = NULL; 
cl program program = NULL; 
cl kernel kernel = NULL; 
int *pHostBuffer = NULL; 
nt *pDeviceBuffer = NULL; 


全 上- 


/ 获得 OpenCL 平 台 
clGetPlatformIDs (1， 
if (Platform id == NULL) 
{ 


&platform id, NULL); 


puts ("Get OpenCL platform failed!"); 


goto FINISH; 


} 
// 获得 OpenCL 计 算 设备 , 这 里 使 用 GPU 类 型 的 计 


完整 的 代码 加 以 修改 。 而 输出 结果 则 基于 OS X 10.10.3， 


当然 任何 支持 C99 的 编 i 


算 设备 


&device id 


clGetDeviceIDs (platform id, CL DEVICE TYPE GPU, 1, 
NULL); 
fl(device id == NULL) 


puts 
goto FINISH; 


// 根据 设备 ID 来 创建 上 下 文 
context = clCreateContext (NULL, 1, 
if (context == NULL) 


puts ("Context not established!"); 


("No GPU available as a compute device!™"); 


&device id, NULL, NULL, &ret); 


goto FINISH; 
// 根据 上 下 文 与 设备 ID 来 创建 命令 队列 
command queue = clCreateCommandOueue (context, device id, 0, 
&ret); 


if (command queue == NULL) 
{ 


puts ("Command queue cannot be created!"); 


goto FINISH; 


} 

/* 为 了 能 比较 好 地 观察 结 
const size t contentLength = sizeof (int) * 

srclMemOb]j] = clCreateBuffer (context, C 


果 , 我 们 分 配 64MB 的 存储 空间 ,将 主机 端的 数据 传递 到 设备 端 */ 
16 * 1024 


* 1024; 


，M 


EM READ ONLY, 


Intel HD 


contentLength, NULL, 


&ret); 


if(srclMemObj] == NULL) 


puts ("Sourcel memory object failed to 
goto FINISH; 


create!™"); 


src2MemOb]j] = clCreateBuffer (context, CL M 


EM READ ONLY, 


contentLength, 
if(src2MemOb]j] == NULL) 


puts ("Source2 memory object failed to 
goto FINISH; 


// 在 主机 端 分 配 并 初始 化 64MB 的 缓存 数据 
pHostBuffer = malloc (contentLength); 
for (int i = 0; i < contentLength / sizeof 


人) 
Createl") 
(Tnt)y 4 让 ) 


对 器 都 能 通 ) 


Intel Core 1i74650U ， 


过 编译 。 这 段 代 码 也 完全 可 以 


pHostBuffer[i] = i; 

// 这 里 定义 一 对 时 间 惟 来 记录 clEnqueueWriteBuffer 所 花费 的 时 间 

struct timeval tsBegin, tsEnd; 

long tlDuration, t2Duration; 

gettimeofday (&tsBegin, NULL); 

/* 我 们 先 使 用 阻塞 方式 传递 数据 来 观察 结果 。 两 个 数据 源 都 用 同一 个 主机 端的 存储 地 址 来 传送 数据 */ 
ret = clEnqueueWriteBuffer (command queue, srclMemObj, CL TRUE，0， 
contentLength, pHostBuffer, 0, 
NULL, NULL); 


if(ret != CL SUCCESS) 
{ 
puts("Datal transfer failed"); 
goto FINISH; 
} 
gettimeofday (&tsEnd, NULL); 
tlDuration = ve * (tspEnd.tv sec = ‘tsBegin,.tv sec ) 十 
tsEnd.tv usec - tsBegin.tv "usec); 
// 再 记录 第 一 个 线 丘 个 的 性 和 时 间 
gettimeofday (&tsBegin, NULL); 
ret = clEnqueueWriteBuffer (command queue, src2MemObj, 
CL TRUE, 0, 
contentLength, pHostBuffer, 
0, NULL, NULL); 


if(ret != CL SUCCESS) 
{ 


puts ("Data2 transfer failed"); 
goto FINISH; 
} 
gettimeofday (&tsEnd, NULL); 
t2Duration = 1000000L * (tsEnd.tv sec - tsBegin.tv Sec ) + 
(tsEnd.tv usec - tsBegin.tv usec); 
printf ("tl duration: %ld, t2 duration: $ld", tlDuration, 
t2Duration); 


FINISH: 

if (pHostBuffer != NULL) 

free (pHostBuffer); 

if (pDeviceBuffer != NULL) 

free (pDeviceBuffer); 

if (kernelSource != NULL) 

free (kernelSource); 

if(srclMemObj] != NULL) 

clReleaseMemObject (srclMemObj); 

if(src2MemObj] != NULL) 

clReleaseMemObject (src2MemObj); 

if(dstMemOb] != NULL 
clReleaseMemObject (dstMemObj); 

if(kernel != NULL) 

clReleaseKernel (kernel); 

if (program != NULL 

clReleaseProgram (program); 

if (command queue != NULL) 

clReleaseCommandOueue (command queue); 

if (context != NULL 加 

clReleaseContext (context); 
puts ("Program complete"™"); 
return 0; 


上 述 代 码 使 用 了 阻塞 方式 来 调用 cIEnqueueWriteBuffer 函 数 API， 前 后 两 次 调用 所 花费 的 时 间 分 别 为 21813 微 秒 和 26155 微 
秒 。 在 调用 后 一 个 clEnqueueWriteBuffer 遂 数 之 前 ， 前 一 次 调用 已 经 确保 将 数据 从 主机 端 完整 地 送 到 了 设备 端的 存储 空间 。 


下 面 ， 我 们 将 上 述 两 个 cIEnqueueWriteBuffer 函 数 调用 中 的 第 3 个 参数 由 CL_ TRUE 改 为 CL_ FALSE， 来 观察 结果 。 结 果 显 示 
前 后 两 次 调用 所 花费 的 时 间 分 别 为 140 微 秒 和 28 微 秒 。 与 阻塞 方式 相 比 ， 非 阻塞 方式 所 花费 的 时 间 大 幅 减少 。 但 是 各 位 读者 别 忘 
了 ， 采 用 非 阻塞 方式 虽然 OpenCL 系 统 很 快 将 执行 权 还 给 了 当前 线程 ， 但 是 数据 传输 的 作业 未 必 已 经 完成 ， 往 往 还 处 于 进行 中 的 
状态 。 那 么 当 我 们 采用 非 阻塞 的 模式 来 传输 数据 时 如 何 确保 该 命令 完全 执行 完成 呢 ? 直接 调用 clFinish 函 数 进 行 同步 是 一 个 方 
法 。 还 有 一 个 方法 就 是 我 们 下 面 介绍 的 ， 使 用 OpenCL 的 事件 机 制 。 


6.2 OpenCL 事 件 机 制 


OpenCL 中 ， 几 乎 所 有 clIEnqueue 系 API 包 含 了 事件 列表 参数 ， 可 用 于 查询 当前 命令 执行 的 状态 以 及 对 其 后 续 命 令 的 执行 同 


OpenCL 提 供 了 clCreateUserEvent 函 数 APl 来 创建 用 户 自 定义 事件 。 如 果 使 用 cIEnqueue 将 一 个 命令 放 入 命令 队列 中 ， 同 时 
又 把 自己 创建 的 用 户 自 定义 事件 传 进 去 ， 那 么 命令 队列 会 等 到 此 事件 完成 时 ( 即 CL COMPLETE 状态 ) 才 会 将 此 命令 提交 给 设备 
执行 。 当 然 ， 我 们 更 多 情况 下 是 直接 用 clIEnqueue 系 API 所 返回 的 c| event 对 象 来 作为 事件 同步 对 象 。 


在 我 们 用 OpenCL 事 件 对 象 来 做 命令 执行 的 同步 之 前 ， 我 们 先 对 如 何 查询 OpenCL 事 件 对 象 的 状态 以 及 相关 注意 事项 做 些 了 
解 。 要 查询 当前 OpenCL 事 件 对 象 的 状态 ， 我 们 使 用 clGetEventlinfo 这 个 函数 AP1， 其 原型 是 : 


cl int clGetEventInfo(c] event event, 
cl event info param name, 
size 七 | param value size, 
Void * param value, 
Ex param Value size ret); 


这 个 函数 返回 对 此 函数 调用 的 状态 。 如 果 是 CL_SUCCESS， 那 么 说明 调用 成 功 。 如 果 是 其 他 值 ， 说 明 函 数 调用 失败 。 


第 1 个 参数 event 是 指定 要 查询 状态 的 OpenCL 事 件 对 象 。 第 2 个 参数 param_name 指 定 了 要 查询 事件 的 种 类 。 就 OpenCL 
2.0 而 言 ， 一 共有 以 下 几 个 事件 种 类 : 


“CL_EVENT_COMMAND_QUEUE: 表示 查询 此 事件 所 对 应 的 命令 队列 ， 因 此 第 4 个 参数 param_value 对 应 于 


cl_command_queue 类 型 。 
CL_EVENT_CONTEXT: 表示 查询 此 事件 所 对 应 的 OpenCL 上 下 文 ， 因 此 第 4 个 参数 param_value 对 应 于 cl_context 类 型 。 


CL, EVENT_COMMAND_TYPE: 表示 查询 此 事件 所 关联 的 命令 类 型 ， 因 此 第 4 个 参数 param_value 对 应 于 cl_command_type 


类 型 。 而 cl_command_type 类 型 所 对 应 的 值 其 实 是 枚 举 值 ， 比 如 : CL_COMMAND_NDRANGE_KERNEIL 表 示 当 前 事件 是 与 内 核 
人 


命令 相关 联 的 ; CL_COMMAND_WRITE_BUFFER 表 示 当 前 事件 是 与 写 缓存 命令 相关 联 的 。 由 于 命令 种 类 繁多 ， 因 此 这 里 不 做 详 


细 介 绍 ， 各 位 读者 可 以 参考 OpenCL 2.0 官 方 手册 的 5.11 节 。 


CL_EVENT_COMMAND_EXECUTION_STATUS: 表示 查询 此 事件 当前 的 执行 状态 ， 第 4 个 参数 patam_value 对 应 的 类 型 为 


cl_int。 可 查询 到 的 OpenCL 命 令 的 执行 状态 有 以 下 4 种 : 
CL_QUEUED: 此 状态 说 明 当 前 命令 已 经 被 排 入 了 命令 队列 中 ， 但 尚未 提交 。 
* CL_SUBMITTED: 此 状态 说 明 当 前 命令 已 经 被 提交 给 了 计算 设备 ， 准 备 执行 。 
. CL RUNNING: 此 状态 说 明 当 前 计算 设备 正在 执行 此 命令 ， 但 尚未 完成 。 
* CL_COMPLETE: 此 状态 说 明 当 前 命令 已 经 完成 执行 。 


第 3 个 参数 param_value_size 用 于 指定 第 4 个 参数 param_value 类 型 的 大 小 。param value 即 指向 根据 第 2 个 参数 
param_name 所 指定 的 查询 事件 种 类 而 要 让 clGetEventinfo 函 数 最 终 输出 结果 的 变量 地 址 。 第 5 个 参数 param _value size ret 指 
向 用 于 输出 clGetEventInfo 函 数 实际 所 返回 的 结果 的 大 小 ， 这 个 参数 可 以 传 空 。 下 面 我 们 举 几 个 简单 的 例子 来 描述 此 API 函 数 的 
用 法 。 


【 例 1】 ”查询 当前 事件 所 对 应 的 命令 队列 : 


cl command queue queryCmdOueue; 
clGetEventIinfol(evtl, CL EVENT COMMAND QUEUE， 


sizeof (queryCmdOueue), &queryCmdOueue, NULL); 


【 例 2】 ”查询 当前 事件 所 对 应 的 OpenCL 上 下 文 : 


cl context queryContext; 
clGetEventIinfo(evtl, CL EVENT CONTEXT, sizeof (gqueryContext), 
&queryContext, NULL); 


下 面 我 们 将 基于 本 章 的 样 例 代码 ， 蔡 换 掉 第 1 个 clEnqueueWriteBuffer 与 第 2 个 clEnqueueWriteBuffer 调 用 之 间 的 代码 来 描 
述 查 询 使 用 非 阻 塞 方式 的 cIEnqueueWriteBuffer 之 后 事件 状态 的 变化 。 


// 我 们 这 里 用 evt1 来 监测 对 srcl1MemObj 做 数据 传输 的 命令 执行 状态 

cl event evtl; 

ret = clEnqueueWriteBuffer (command queue, srclMemObj, CL FALSE, 
0, contentLength, pHostBuffer, 0, NULL, 
&evt1); 


if (ret != CL SUCCESS) 
{ 


puts("Datal transfer failed"); 
goto FINISH; 
} 
cl int status; 
// 我 们 用 一 个 无 限 循环 来 观察 事件 在 哪 次 迭代 切换 到 了 CL _SUBMITTED 
for(int i = 0; ; i++) 


{ 


ret = clGetEventIinfol(evtl, CL EVENT COMMAND EXECUTION STATUS, 
sizeof(status), &status, NULL); 


if (ret == CL SUCCESS) 
{ 


if(status == CL QUEUED) 


printf ("This write command has been queued: Q@%d\n", i); 
continue; 


else if(status == CL SUBMITTED) 


printf ("This write command has been submitted: @%d\n", 
i); 


break; 
} 
} 
clReleaseEvent (evt1); // 用 完 此 事件 对 象 后 将 其 释放 


上 述 代 码 中 ， 我 们 在 cIEnqueueWriteBuffer 函 数 的 最 后 一 个 参数 传 入 了 在 其 上 面 声明 的 OpenClL 事 件 对 象 的 地 址 。 一 旦 成 
功 关联 上 ， 我 们 就 获得 了 对 应 于 当前 写 缓存 命令 的 事件 。 然 后 ， 我 们 用 一 个 无 限 循环 来 查询 evt1 事 件 的 状态 变化 。 这 里 要 注意 的 
是 ， 对 于 不 同系 统 环境 下 的 OpenCL 实 现 ， 事 件 查询 返回 的 结果 可 能 是 不 同 的 。 在 OS X 10.10 下 ， 第 一 次 迭代 中 事件 状态 就 已 经 
是 CL_ QUEUED， 说 明 此 写 命令 已 经 被 排 入 了 命令 队列 里 ; 过 了 几 十 次 迭代 后 状态 被 切换 为 CL SUBMITTED。 而 再 继续 ， 如 果 
各 位 读者 想 要 再 增加 对 CL_RUNNING 状 态 变化 查询 是 无 法 得 到 结果 的 。 因 为 CL RUNNING 状 态 与 CL COMPLETE 状 态 其 实 不 是 
在 主机 端 维护 的 ， 而 是 在 计算 设备 端 ， 这 一 点 与 前 两 个 状态 不 同 。O3 X 中 的 OpenCL 实 现 一 般 是 在 主机 端 上 的 驱动 直接 管理 
CL_QUEUED 与 CL SUBMITTED 状 态 ， 因 为 这 两 个 状态 都 还 没 交付 给 计算 设备 。 而 后 两 种 运行 状态 是 计算 设备 处 于 此 状态 之 后 
通过 某 种 机 制 给 主机 端 发 送信 号 (如 一 个 中 断 信号 ) ， 然 后 主机 端 需要 自己 通过 底层 接口 去 获取 此 信号 来 更 新 状态 。 因 此 ， 在 
OS X 的 OpenCL 实 现 中 ， 如 果 要 将 当前 的 事件 对 象 在 计算 设备 端 同步 回来 ， 必 须 调用 clFinish 或 是 后 面 将 会 介绍 的 


clWaitForEvents 这 类 同步 AP1。 


而 在 Windows 与 Linux 下 ， 如 果 使 用 AMD 的 OpenCL 实 现 ， 在 主机 端 可 以 捕获 到 CL COMPLETE 状 态 ， 而 CL RUNNING 状 
态 捕获 不 到 。 


另外 比较 重要 的 一 点 是 ， 调 用 clIEnqueueWriteBuffer 函 数 所 在 的 线程 必须 与 调用 clGetEventlnfo 函 数 所 在 的 线程 是 同一 
个 。 如 果 clEnqueueWriteBuffer 函 数 在 主线 程 上 调用 ， 而 clGetEventlnfo 函 数 在 另 一 个 用 户 线程 上 调用 ， 则 执行 
clGetEventlinfo 函 数 时 可 能 会 引发 异常 。 


上 述 示例 代码 中 ， 我 们 使 用 了 一 个 无 限 循环 来 轮 询 当 前 事件 的 状态 。OpenCL 还 提供 了 一 种 异步 回调 的 方式 来 跟踪 当前 事件 
的 状态 变化 。 其 原型 是 : 


cl int clSetEventCallback (cl event event, 
Gl jnt command exec callback type, 
void (*pfn notify) (cl event, cl int, void *), 
Void * user data); 


其 第 一 个 参数 event 为 指定 的 事件 对 象 。 第 二 个 参数 command_exec_callback_type 用 来 指明 当 此 事件 处 于 哪个 执行 状态 时 
发 生 回 调 。 可 注册 的 执行 状态 有 CL SUBMITTED、CL RUNNING 和 CL COMPLETE。 第 三 个 参数 pfn_notify 就 是 我 们 自己 定义 
的 观察 事件 状态 的 回调 函数 。 其 三 个 参数 分 别 指定 OpenCL 系 统 传 入 的 事件 对 象 ， 此 事件 当前 的 状态 以 及 用 户 数据 参数 。 这 个 用 
户 数据 参数 与 clSetEventCallback 函 数 的 第 四 个 参数 user_data 是 同一 个 值 。 


下 面 我 们 对 上 述 代码 例子 再 做 些小 修改 来 测试 这 个 API 函 数 。 首 先 ， 我 们 在 main 函 数 的 上 面 定义 以 下 内 容 : 


static volatile bool canContinue = false; 
static void MyEventHandler (cl event event, cl int status, 
void *userData) 


{ 
if(status == CL SUBMITTED) 
puts("The current status is submitted."); 
canContinue = true; 


上 述 的 canContinue 全 局 变量 将 会 用 于 判定 程序 是 否 可 以 继续 往 下 执行 。 然 后 ， 我 们 用 下 面 的 代码 来 蔡 换 上 面 for 循 环 部 分 
的 代码 : 
clSetEventCallback (evtl1, CL SUBMITTED, é&MyEventHandler, NULL); 


forl(int i = 0; ; i++) 


{ 


if (canContinue) 

{ 
printf ("This is the %dth iteration.\n", i); 
break; 


我 们 通过 clSetEventCallback 函 数 来 监测 evt1 事 件 对 象 状态 是 否 切 换 到 了 CL _SUBMITTED。 当 evt1 事 件 对 象 的 状态 变 大 
CL_ SUBMITTED， 那 么 OpenCL 系 统 将 会 调用 我 们 自 定 义 的 MyEventHandler 函 数 。 我 们 在 MyEventHandler 函 数 中 将 
canContinue 全 局 标志 设置 为 true， 用 于 指明 for 循 环 的 轮 询 可 以 跳出 。 


下 面 我 们 来 讲述 如 何 通过 事件 对 象 做 命令 之 间 的 同步 。 大 部 分 IEnqueue 系 函数 APl 都 含有 指定 等 待 事件 列表 的 参数 ， 也 就 
是 const cl eventxevent_ wait_list。 如 果 此 参数 不 空 ， 并 且 所 指向 的 存储 空间 包含 了 N 个 事件 对 象 (N>0) ， 那 么 该 enqueue 
命令 会 在 此 等 待 事件 列表 中 的 所 有 事件 都 处 于 CL COMPLETE 之 后 才 会 提交 给 计算 设备 执行 。 


下 面 ， 我 们 将 基于 本 章节 的 示例 代码 ， 修 改 从 第 一 个 cIEnqueueWriteBuffer 函 数 调 用 到 FINISH 跳 转 标签 上 面 的 所 有 代码 ， 
替换 如 下 : 


// 我 们 这 里 用 evt1 来 监测 对 srcl1MemObj 做 数据 传输 的 命令 执行 状态 

cl event evtl, evt2; 

ret = clEnqueueWriteBuffer (command | queue, srclMemObj, CL FALSE, 
0, contentLength, pHostBuffer, 0, NULL, 
&evt1); 


if(ret != CL SUCCESS) 
{ 


puts("Datal transfer failed"); 
goto FINISH; 


ret = clEnqueueWriteBuffer (command queue, src2MemObj, CL TRUE，0， 


contentLength, pHostBuffer, 1, &evtl, 
&evt2) ， 


if (ret != CL SUCCESS) 
{ 


puts ("Data2 transfer failed"); 
goto FINISH; 
} 
clReleaseEvent (evt1); 
clReleaseEvent (evt2); 


我 们 先 用 evt1 事 件 对 象 作为 第 一 个 写 缓存 命令 的 同步 事件 。 然 后 ， 在 调用 第 二 个 IEnqueueWriteBuffer 函 数 时 把 evt1 对 象 
的 地 址 作为 等 待 事件 列表 的 参数 ， 而 evt2 作 为 第 二 个 写 缓存 命令 的 同步 事件 对 象 。 这 样 就 使 得 在 第 二 个 写 绥 存 命令 开始 执行 前 ， 
第 一 个 写 缓存 命令 必须 完成 执行 。 

上 面 介绍 了 命令 之 间 的 同步 。 那 么 如 果 我 们 的 需求 是 在 某 个 命令 完成 之 前 不 想 让 当前 主机 端的 线程 继续 往 下 执行 该 怎么 办 
呢 ” 如 果 使 用 clFinish 函 数 ， 那 么 主机 端的 线程 会 被 一 直 挂 起 ， 直 到 命令 队列 中 所 有 命令 全 都 执行 完了 之 后 才能 返回 操作 。 而 如 
果 我 们 仅仅 只 是 等 某 一 个 命令 执行 完成 ， 就 可 以 使 用 clWaitForEvents 函 数 接口 ， 其 声明 如 下 : 


cl int clWaitForEvents (cl uint num events, 
const cl event *event list) 


这 个 函数 会 将 主机 端的 线程 挂 起 ， 直 到 event list 中 的 所 有 事件 全 都 完成 。 第 一 个 参数 hum_events 指 定 事件 列表 中 一 共有 
多 少 个 事件 需要 等 竺 完成。 下面 我 们 基于 上 述 代码 ， 在 clReleaseEvent (evt1) ; 上 面 添加 如 下 代码 : 


struct timeval tsBegin, tsEng; 

gettimeofday (&tsBegin, NULL); 

clWaitForEvents (1 ， &evt2); 

gettimeofday (&tsEnd, NULL); 

long duration = 1000000L * (tsEnd.tv sec - tsBegin.tv sec ) + 
(tsEnd.tv usec - tsBegin.tv usec); 

printf ("Wait time spent: $ldus\n", duration); 


我 们 先 用 阻塞 方式 调用 第 2 个 IEnqueueWriteBuffer 函 数 ， 察 看 结果 ; 然后 再 用 非 阻 塞 方式 调用 第 2 个 
cIEnqueueWriteBuffer 函 数 ， 察 看 结果 。 在 本 章 使 用 示例 代码 的 环境 下 ， 使 用 阻塞 方式 仅 等 待 了 4 微 秒 ， 说 明 clWaitForEvents 
的 函数 执行 很 快 就 被 返回 了 ， 因 为 阻塞 方式 下 ，evt2 事 件 在 调用 cIEnqueueWriteBuffer 函 数 时 就 已 经 处 于 完成 状态 了 ; 而 使 用 
非 阻塞 的 方式 则 等 待 了 36601 微 秒 ， 说 明 clWaitForEvents 函 数 的 执行 将 当前 线程 挂 起 了 相当 一 段 时间 等 待 evt2 处 于 
CL COMPLETE 状态 。 


正如 上 面 所 提 到 的 ， 如 果 我 们 在 clWaitForEvents 的 函数 下 面 添加 clGetEventinfo 函 数 调用 来 查询 当前 事件 的 执行 状态 ， 我 
们 会 看 到 ，evt2 一 定 处 于 CL COMPLETE 状 态 (被 定义 为 0) : 


cl int status; 

ret = ClLGetEventInfo (evt2， CL EVENT COMMAND EXECUTION STATUS, 
sizeof (status), &status, NULL); 

printf ("The current status of evt2 is: %d\n", status); 


了 解 OpenCL 几 个 典型 的 同步 用 法 之 后 ， 下 面 我 们 将 举 一 个 更 综合 性 的 例子 将 这 些 同步 函数 API 的 使 用 整合 在 一 起 。 我 们 把 
本 章节 一 开始 提供 的 示例 代码 从 struct timeval tsBegin，tsEnd; 一 直到 FINISH 跳 转 标签 之 间 的 代码 替换 为 以 下 代码 ， 同 时 将 
evt1 和 evt2 的 声明 放 到 了 前 面 ， 与 其 他 变量 写 在 一 起 ， 各 位 读者 在 FINISH 标 签 下 要 增加 对 这 两 个 事件 对 象 的 释放 : 


/* 对 Srcl1MemObj 的 数据 传输 ,我 们 使 用 非 阻塞 方式 ,等 后 续 设 置 完成 后 通过 事件 等 待机 制 进行 同步 */ 

ret = clEnqueueWriteBuffer (command queue, srclMemObj, CL FALSE, 
0, contentLength, pHostBuffer, 0, NULL, 
&evt1); 


if(ret != CL SUCCESS) 
{ 


puts("Datal transfer failed"); 
goto FINISH; 


} 

/* 对 src2MemObj 的 数据 传输 ,我 们 使 用 非 阻塞 方 式 , 等 后 续 设置 完成 后 通过 事件 等 待机 制 进行 同步 */ 

ret = clEnqueueWriteBuffer (command queue, src2MemObj, CL FALSE, 
0, contentLength, pHostBuffer, 1, &evtl, 
&evt2); 


if(ret != CL SUCCESS) 

{ 
puts ("Data2 transfer failed"); 
goto FINISH; 


} 

// 创建 用 于 结果 输出 的 缓存 对 象 

// 我 们 这 里 使 用 可 读 可 写 是 为 了 在 第 一 个 Kernel 程 序 执行 完 之 后 ， 

// 它 既 能 作为 第 二 个 kernel 程 序 的 输入 ,也 能 作为 第 二 个 kernel 程 序 的 输出 

dstMemObj] = clCreateBuffer (context, CL MEM READ WRITE, 
contentLength, NULL, &ret); 

// 指定 内 核 源 文 件 路 径 , 这 个 路 径 根据 读者 当前 环境 可 以 更 改 

// 这 里 使 用 绝对 路 径 也 是 避免 不 同系 统 需 要 调用 不 同 API 来 获取 当前 路 径 

const char *pFileName = '"/Users/zennychen/Downloaqs/test .cl1L"; 

FILE *fp = fopen (pFileName, "r"); 

if (fp == NULL) 


puts ("The specified kernel source file cannot be opened!"); 
goto FINISH; 


fseek (fp, 0, SEEK END); 

const long kernelLength = ftell (fp); 
fseek (fp, 0, SEEK SET); 

kernelSource = malloc (kernelLengtn); 
fread (kernelSource, 1, kernelLength, fp); 
fclose (fp); 
program = clCreateProgramWithSource (context, 1, 

(const char **) &kernelSource, 
(Const size 七 *) &kernelLength, 
&ret); 

ret = clBuildProgram(program, 1, &device id, NULL, NULL, NULL); 
if (ret != CL SUCCESS) 

{ 


size 七 len; 

char buffer[8 * 1024]; 

printf ("Error: Failed to build program executable!\n"); 

clGetProgramBuildIinfo (program, device id, CL PROGRAM BUILD LOG, 
Sizeof (buffer), buffer, &len); 

printf ("$s\n", buffer); 

goto FINISH; 


} 

// 第 一 个 kernel 的 主 函 数 为 kernell test 

kernel = clCreateKernel (program, “kernell test", &ret); 
if(kernel == NULL) 

{ 


puts ("Kernel failed to create!"); 
goto FINISH; 
} 
ret = clSetKernelArg (kernel, 0, sizeof (cl mem), 
(void *)&dqstMemob]j ) 
ret |= ClSetKernelArg (kernel, 1, sizeof(cl mem), 
(void *)&srclMemObj); 
ret |= clSetKernelArg (kernel, 2, sizeof(cl mem), 
(void *)&src2MemObj); 


if(ret != CL SUCCESS) 

{ 
puts("Set arguments error!"); 
goto FINISH; 


} 

// 获取 最 大 工作 组 大 小 

size 七 maxWorkGroupSize = 0; 

clGetDeviceInfo (device id, CL DEVICE MAX WORK GROUP SIZE, 
sizeof (maxWorkGroupSize), &maxWorkGroupSize, NULL); 

/* 我 们 这 里 等 待 对 srclMemObj 和 src2MemObj 的 数据 全 都 传输 好 之 后 再 执行 下 面 的 内 核 程序 执 行 */ 

clWaitForEvents(2, (cl event[2]) {evtl, evt2}); 

// 这 里 用 完 evt1 与 evt2 之 后 将 它们 释放 置 空 

clReleaseEvent (evt1); 

clReleaseEvent (evt2); 

evtl1 = NULL; 

evt2 = NULL; 

// 这 里 指定 将 总 共有 (contentLength / sizeof (int) ) 个 工 作 项 

// 然后 ,每 个 工作 组 含有 maxWorkGroupSize 个 工作 项 

// 我 们 这 里 再 复 用 evt1 来 跟踪 内 核 程 序 1 的 执行 状态 

ret = clEnqueueNDRangeKernel (command queue, kernel, 1, NULL, 

(Gonst size t[]) 

{contentLength / sizeof (int)}, 

&maxWorkGroupSize, 0, NULL, &evt1); 


if(ret != CL SUCCESS) 

{ 
puts ("kernell execution failed"); 
goto FINISH; 


} 
// 下 面 ,我 们 初始 化 第 二 个 kernel 程 序 
// 现在 计算 设备 在 做 计算 时 ,我 们 主机 端 能 不 受 干扰 地 继续 做 其 他 事情 
kernel2 = clCreateKernel (program, "kernel2 test", &ret); 
// 设置 kerne12 test 的 参数 
ret = clSetKernelArg (kernel2, 0, sizeof (cl mem), 
(void *) &dstMemOb]j); 

ret |= clSetKernelArg (kernel2, 1, sizeof (cl mem), 

(void *)&srclMemObj); 
ret |= clSetKernelArg (kernel2, 2, sizeof (cl] mem), 

(void *)&src2MemObj); 
if(ret != CL SUCCESS) 
{ 


puts ("Kernel2 arguments setting failed"); 

goto FINISH; 
} 
// 这 里 Kerne12 程 序 必须 等 Kernel1l 执 行 完成 之 后 才能 执行 
ret = clEnqueueNDRangeKernel (command queue, kernel2, 1, NULL, 
(const size 七 []) 
{contentLength / sizeof (int)}, 
&maxWorkGroupSize, 1, &evtl, &evt2); 


if(ret != CL SUCCESS) 

{ 
puts ("kernel2 execution failed"); 
goto FINISH; 


} 

// 准备 做 校 验 

pDeviceBuffer = (int *)malloc (contentLength); 

// 这 里 , 读 取 计 算 设备 端的 数据 的 命令 通过 evt2 进 行 同步 

// 确保 Kerne12 完 成 执行 后 再 执行 读数 据 命令 ,并 且 这 里 使 用 阻塞 的 方式 读 取 数据 
clEnqueueReadBuffer (command queue, dstMemObj, CL TRUE, 0, 
contentLength, pDeviceBuffer, 1, &evt2, NULL); 
for(lint i = 0; i < contentLength / sizeof (int); i++) 


{ 


int testData = pHostBuffer[i] + pHostBuffer[i]; 
testData = testData * pHostBuffer[i] - pHostBuffer[i]; 
if(testData != pDeviceBuffer[i]) 

{ 


printf ("Error occurred @%d, result is: %d \n", i, 
pDeviceBuffer[i]); 
goto FINISH; 


} 
} 


puts("Result is OK!"); 


上 述 代码 中 我 们 结合 了 clIEnqueue 自 身 的 事件 同步 机 制 ， 读 写 数 据 的 阻塞 与 非 阻 塞 方式 ， 以 及 事件 等 待 函 数 的 调用 来 做 各 种 
情况 下 的 同步 。 下 面 列 出 上 述 函 数 中 所 用 到 的 内 核 代码 ， 也 非常 简单 : 


”kernel void kernell test( global int *pDst, 
_ global int *pSrcl, _ global int *pSrc2) 


int index = get global id(0); 
pDst[index] = pSrcl[lindex] + pSrc2[index]; 


_ kernel void kernel2 test( global int *pDst, 
_ global int *pSrcl, _ global int *pSrc2) 


int index = get global id(0); 
pDst[index] = pDst[index] * pSrcl[index] - pSrc2[index]; 


本 节 给 大 家 讲述 了 OpenCL 命 令 之 间 的 同步 以 及 命令 与 主机 端 线程 同步 的 用 法 和 实例 。6.2.1 节 ， 我 们 将 给 大 家 介绍 对 
OpenCL 事 件 的 标记 和 栅栏 操作 。 


6.3 ”原子 操作 


原子 操作 在 传统 并 行 计算 上 也 是 用 得 非常 多 的 技巧 。 例 如 ， 对 一 些 同 步 原 语 (synchronization primitive) 的 实现 都 可 能 会 
用 到 原子 操作 。 最 常见 的 就 是 多 个 线程 如 果 要 对 同一 存储 地 址 的 内 容 进 行 更 新 ， 就 要 用 到 原子 操作 进行 访 存 。 例 如 ， 我 们 要 对 一 


个 大 数组 进行 求 和 操作 ， 倘 若 我 们 是 在 一 个 具有 双核 的 处 理 器 上 执行 ， 那 么 我 们 可 能 会 将 一 个 核 的 线程 执行 前 一 半 求 和 ， 另 一 个 
核 上 的 线程 执行 后 一 半 ， 最 后 将 这 两 个 结果 相 加 。 如 果 我 们 的 实现 是 把 最 终结 果 人 存放 在 一 个 全 局 变量 里 ， 这 个 变量 的 地 址 对 于 这 
两 个 线程 而 言 都 是 可 获得 的 。 那 么 一 个 线程 做 完 一 半 求 和 之 后 用 原子 的 加 法 操作 对 这 个 全 局 变量 进行 一 次 求 和 更 新 ， 这 样 ， 当 另 
一 个 线程 也 用 原子 操作 更 新 这 个 全 局 变量 时 结果 是 确定 的 。 原 子 操作 往往 会 对 总 线 做 一 次 锁 步 操作 (lock-step) ， 让 当前 总 线 

上 的 访 存 操作 能 按 次 序 进行 。 同 时 又 会 刷新 当前 Cache， 使 得 任 一 线程 对 全 局 变量 使 用 了 原子 操作 之 后 ， 其 他 所 有 线程 都 可 见 。 

这 样 既 保证 了 存储 器 访问 次 序 ， 而 且 又 能 确保 更 新 结果 都 能 影响 到 各 个 线程 ， 每 个 核心 的 L1 Cache 都 会 被 更 新 。 所 以 ， 使 用 原 

子 操作 做 同步 对 于 执行 开销 而 言 是 相当 大 的 ， 但 是 对 于 需要 使 用 更 原始 的 阻塞 当前 线程 执行 的 同步 方式 而 言 又 是 比较 高 效 的 。 
此 ， 当 我 们 对 某 些 特定 数据 做 同步 更 新 时 ， 不 需要 使 用 栅栏 等 这 种 更 低 效 的 处 理 机 制 ， 我 们 可 以 直接 对 那个 存储 地 址 采用 原子 操 
作 。 


OpenCL C 2.0 实 现 了 C11 的 原子 操作 的 子 集 ， 并 且 提 供 了 非常 丰富 的 原子 操作 种 类 ， 我 们 稍 后 会 逐一 详细 讲解 。 不 
过 ，OpenCL 2.0 之 前 的 原子 操作 接口 比较 简单 ， 而 且 与 2.0 版 本 完全 不 同 ， 所 以 ， 我 们 这 里 先 介绍 一 下 OpenCL 1.2 中 的 原子 操 
作 内 建 函 数 。 


6.4 局部 存储 器 与 全 局 存储 器 间 的 异步 拷贝 


介绍 完了 原子 操作 之 后 ， 本 节 我 们 再 来 介绍 一 下 OQpenCL 从 全 局 存储 区 域 到 局 部 存储 区 域 以 及 从 局 部 存储 区 域 到 全 局 存储 区 
域 的 异步 拷贝 。 这 些 操作 在 OpenCL 1.2 中 就 已 经 被 引入 了 。 我 们 之 前 提 到 了 OpenCL 主 机 端的 API 提 供 了 事件 等 待 的 函数 接口 ， 
而 对 于 大 部 分 cIEnqueue 系 API 而 言 都 会 带 有 event_wait_list 参 数 ， 用 于 指定 等 待 哪些 事件 完成 才能 执行 ， 以 及 event 参 数 用 来 跟 
踪 当 前 命令 本 身 。 在 主机 端 ， 事 件 对 象 类 型 为 cl|_ event。 而 OpenCL 内 核 程 序 中 也 含有 事件 对 象 类 型 ， 被 定义 为 event_t。 事 件 
对 象 可 以 用 来 跟踪 异步 拷贝 的 完成 情况 。 


下 面 先 介绍 异步 工作 组 基本 拷贝 功能 的 函数 原型 : 


event 七 async work group copy ( local gentype *dst, 
const _ global gentype *src, size t 
num gentypes, 
event t event) 

event 七 async work group copy ( global gentype *dst, 
const local gentype *src, Size t 
num gentypes, 
event t event) 


上 一 个 函数 是 将 全 局 存储 器 的 数据 拷贝 到 局 部 存储 器 中 ， 下 一 个 则 是 将 局 部 存储 器 的 数据 拷贝 到 全 局 存储 器 中 。 这 
里 ，gentype 是 一 个 泛 型 类 型 ， 能 支持 OpenCL 中 所 有 标量 及 向 量 形式 的 基本 类 型 。 参 数 num_gentypes 指 明了 需要 拷贝 多 少 个 
gentype 的 元 素 ， 因 此 一 共 需 要 拷贝 的 字 节 数 为 num_gentypes*sizeof (num_gentypes) 。 最 后 一 个 参数 event 是 用 于 指定 之 
前 进行 异步 拷贝 的 事件 对 象 。 前 后 相继 的 异步 拷贝 操作 可 以 共享 一 个 事件 对 象 。event 人 参数 被 指定 为 前 某 一 个 事件 对 象 时 ， 该 函 
数 将 直接 返回 该 event 事 件 对 象 ; 否则 这 个 参数 传 0 即 可 ， 函 数 返 回 对 应 该 操作 的 一 个 事件 对 象 。 


这 里 需要 注意 的 是 ， 当 我 们 调用 异步 拷贝 函数 时 需要 当前 工作 组 的 所 有 工作 项 参与 进行 操作 ， 否 则 结果 是 未 定义 的 。 这 意味 
着 如 果 我 们 用 以 下 代码 来 调用 异步 操作 ， 结 果 是 不 确定 的 : 


if(get local id(0) == 0) 
async work group copy (pDst, tmpBuffer, 64, 0); 


然后 ， 我 们 再 介绍 一 下 事件 等 待 的 内 建 浮 数 ， 其 浮 数 原型 如 下 : 


void wait group events (int num events, event 七 *event list) 


这 个 函数 非常 简单 ， 第 一 个 参数 num_events 指 定 了 第 二 个 参数 event_list 中 包含 了 多 少 个 事件 对 象 。 第 二 个 参数 event _list 
就 是 指向 事件 对 象 的 数组 。 这 个 函数 与 主机 端的 事件 等 待 类 似 ， 只 有 当 事 件 列表 中 的 事件 全 都 处 于 完成 状态 之 后 程序 才能 继续 往 
下 执行 。 当 然 ， 这 个 函数 与 async_work_group_copy 一 样 ， 必 须要 当前 工作 组 中 所 有 工作 项 参与 进来 操作 。 另 外 ， 我 们 要 注意 
的 是 ， ed 个 函数 被 调用 之 后 ， 所 有 工作 项 都 会 处 于 同一 个 调用 点 ， 因 此 这 个 函数 不 能 被 当 作 一 个 barrier 
来 使 用 。 不 过 ， 这 个 函数 可 以 保证 当前 工作 项 的 拷贝 工作 能 够 切实 完 


下 面 ， 我 们 来 举 一 个 简单 的 例子 来 看 一 下 基本 功能 的 异步 拷贝 操作 是 如 何 具体 使 用 的 。 我 们 将 上 述 主 机 端 代码 从 
ret=clIEnqueueNDRangeKernel (command queue,kernel,1,NULL,......{evt1,evt2}, NULL) ; 这 一 行 一 直到 FINISH 标 签 ， 蔡 
换 为 如 下 代码 : 


ret = clEnqueueNDRangeKernel (command queue, kernel, 1, NULL, 
(const size 七 [] ){ 
contentLength / sizeof (int)}, 
(const size 七 [] ){ 
maxWorkGroupSize}, 2, 
(const cl event[]){ 
evtl, evt2}, NULL); 
if(ret != CL SUCCESS) 


puts ("kernell execution failed"); 
goto FINISH; 


} 

// 这 里 用 clFinish 做 命令 执行 同步 

clFinish (command queue); 

// 准备 做 校 验 

pDeviceBuffer = malloc (contentLength); 

// 这 里 使 用 阻塞 的 方式 读 取 数 据 

clEnqueueReadBuffer (command queue, dstMemObj, CL TRUE, 0, 
contentLength, 
pDeviceBuffer, 0, NULL, NULL); 


~ 


// 做 数据 校 验 
bool isOK = true; 
for(lint i = 0; i < contentLength / sizeof (int); i++) 
{ 
if (pHostBuffer[i] * 2 != pDeviceBuffer[i]) 
{ 


isOK = false; 
break; 
} 
} 
puts (isOK ? "OK" : "NG"); 


主机 端 代码 比较 简单 ， 不 再 歼 述 。 我 们 马上 看 一 下 对 应 的 OpenCL 内 核 程序 代码 : 


”kernel void kernel test( global int *pDst, 
_ global int *pSrcl, _ global int *pSrc2) 


local int tmpBuffer[GROUP NUMBER OF WORKITEMS]; 
const size t address offset = get group id(0) 


* GROUP NUMBER OF WORKITEMS; 
// 这 里 使 用 了 异步 拷贝 操作 ， 


// 将 全 局 存储 器 的 数据 拷贝 到 相应 的 当前 工作 组 的 局 部 存储 器 中 
// 这 里 , 咏 数 原型 中 的 gentype 就 是 int 类 型 
// 一 共 拷贝 GROUP NUMBER OF WORKITEMS 个 元 素 
event 七 event = async work group copy (tmpBuffer, 
&psrcl [address offset], 
GROUP NUMBER OF WORKITEMS, 0); 
// 这 里 抽空 可 以 做 其 他 事情 ,比如 确定 当前 工作 组 中 当 前 工作 项 的 id 等 
const int inqdex = get local id(0); 
// 等 待 拷 贝 结束 
wait group events(1, &event); 
// 我 们 将 对 应 元 素 乘 以 2, 再 写 回 局 部 存储 器 
tmpBuffer[index] *= 2; 
// 我 们 确保 所 有 工作 项 都 在 调 . 续 的 异步 操作 之 前 能 够 都 完成 对 数据 的 修改 操作 
barrier (CLK LOCAL MEM FENCE); 
// 将 当前 局 部 存储 器 中 的 委 所 再 涛 贝 回 对 应 的 全 局 存 储 器 中 
event = async work group _ copy (&pDst [address offset], tmpBuffer, 


GROUP _ NUMBER OF WORKITEMS, 0); 
// 等 待 拷贝 结 
wait group events(1, &event); 


} 


这 部 分 代码 非常 简单 。 尽 管 我 们 可 以 直接 用 计算 -修改 的 方式 去 做 ， 不 过 作为 一 个 简单 的 demo 而 言 能 作为 使 大 家 更 容易 理 
解 的 函数 使 用 方式 。 这 里 再 强调 一 下 ，async_work_group_copy 作 用 于 整个 工作 组 ， 而 不 是 某 一 工作 项 。 因 此 在 调用 这 个 函数 
时 ， 我 们 要 清楚 与 其 相关 的 地 址 偏 移 以 及 拷贝 的 数据 大 小 需要 参考 的 是 工作 组 的 区 域 学 围 而 不 是 当前 工作 项 的 区 域 学 围 。 


下 面 我 们 再 介绍 更 具 灵 活性 的 ， 带 有 跨度 的 异步 拷贝 操作 。 下 面 先 给 出 函数 原型 


event t async work group strided copy( local gentype *dst, 
const global gentype *src, 
size t num gentypes, size t 
src stride, 
event t event) 

event t async work group strided copy( global gentype *dst, 
const local gentype *src, 
size t num gentypes, size t 
dst stridge, 
event t event) 


两 个 异步 拷贝 浮 数 原型 与 上 面 两 个 基本 差不多 ， 不 过 这 里 分 别 多 了 一 个 参数 。 从 全 局 存储 器 拷贝 到 局 部 存储 器 的 函数 中 新 
增 了 src_stride 参 数 ， 表 示 从 全 局 存储 器 取 数 据 时 ， 一 个 元 素 与 其 后 面 的 一 个 元 素 之 间 跨 多 少 元 素 。 例 如 ， 如 果 gentype 是 float 
类 型 ， 并 且 src_stride 是 4， 那 么 第 一 个 元 素 取 的 是 src[0]， 而 第 二 个 元 素 则 取 的 是 src[4]， 第 三 个 则 是 src[8]， 而 写 入 到 局 部 存储 
器 中 则 是 按 次 序 前 后 相继 写 进去 的 。 也 就 是 第 一 个 元 素 写 到 dst[0]， 第 二 个 元 素 写 到 dst[1]， 第 三 个 写 到 dst[2]， 对 于 从 局 部 存储 
器 异步 拷贝 到 全 局 存储 器 的 函数 中 ， 则 增加 了 dst_stride 参 数 ， 这 个 参数 指明 了 从 局 部 存储 器 所 取出 的 元 素 写 入 到 全 局 存储 器 中 
前 一 个 与 后 一 个 相隔 多 少 个 元 素 。 这 意味 着 数据 从 局 部 存储 器 中 取出 时 是 逐个 相继 取出 的 ， 而 写 入 到 全 局 存储 器 时 是 以 
dst_stride 跨 度 去 写 的 。 例 如 ， 取 出 的 第 一 个 数据 是 src[01]， 第 二 个 数据 是 src[1]， 第 三 个 数据 是 src[2]， 如 果 dst_stride 是 4， 那 
么 写 入 的 第 一 个 数据 是 dst[0]， 第 二 个 数据 是 dst[4]， 第 三 个 数据 则 是 dst[8]。 


下 面 我 们 根据 上 面 异 步 拷贝 操作 的 例子 进行 稍 许 修 改 来 给 出 带 有 跨度 的 异步 拷贝 操作 的 使 用 实例 。 下 面 ， 我 们 将 上 述 代码 中 
最 后 的 校 验 部 分 蔡 换 为 如 下 代码 : 


// 做 数据 校 验 
bool isOK = true; 
for(lint i = 0; i < contentLength / sizeof (int); i++) 


// 跨 4 个 int 元 素 进行 比较 校 验 


if((i & 3) == 0 && pHostBuffer[i] * 2 != pDeviceBuffer[i]) 
{ 
isOK = false; 
break; 
} 
} 
puts(IisOKR 有 OK # “NGM; 


由 于 我 们 这 里 写 回 到 全 局 存储 空间 已 经 是 间隔 了 4 个 int 元 素 ， 所 以 我 们 在 进行 比较 校 验 时 也 必须 间隔 4 个 int 元 素 进行 比较 ， 
否则 结果 肯定 会 失败 。 下 面 给 出 kernel 程 序 代码 : 


”kernel void kernel test( global int *pDst, 
global int xpSrcl， _ global int *pSrc2) 


local int tmpBuffer [GROUP NUMBER OF WORKITEMS]; 
const size t address offset = get group id(0) * 

GROUP NUMBER OF WORKITEMS; 
// 这 里 使 用 了 异步 拷贝 操作 ， 


// 将 全 局 存储 器 的 数据 拷贝 到 相应 的 当前 工作 组 的 局 部 存储 器 中 

// 这 里 , 池 数 原型 中 的 gentype 就 是 int 类 型 

// 一 共 找 贝 GROUP NUMBER OF WORKITEMS / 4 个 元 素 

// 从 全 局 存储 器 获取 的 两 个 元 素 之 间 跨 4 个 元 素 ( 即 4 个 int 大 小 ) 
event t event = async work group strided copy (tmpBuffer, 


&pSTrcl [address offset], 
GROUP NUMBER OF WORKITEMS / 4, 


4, 0); 
// 这 里 抽空 可 以 做 其 他 事情 , 比如 确定 当前 工作 组 中 当 前 工作 项 的 id 等 
const int indqex = get local id(0); 
// 等 待 拷贝 结 
wait group events (1，&event) ， 
// 我 们 将 对 应 元 素 乘 以 2, 再 写 回 局 部 存储 器 
tmpBuffer[index] *= 2; 
// 我 们 确保 所 有 工作 项 都 在 调用 后 续 的 异步 操作 之 前 能 够 都 完成 对 数据 的 修改 操作 
barrier (CLK LOCAL MEM FENCE); 
// 将 当前 局 部 存储 器 中 的 数据 再 拷贝 回 对 应 的 全 局 存 储 器 中 ,并且 相 邻 两 个 元 素 之 间 跨 4 个 元 素 
event = async work group strided copy(&pDst [address offset]， 
tmpBuffer, 
GROUP NUMBER OF WORKITEMS / 4, 
4, 0); 


// 等 待 拷贝 结束 


wait group events (1，&event) ， 


6.5 ”工作 组 间 同 步 


工作 组 之 间 的 同步 对 于 OpenCL 而 言 是 一 个 相对 比较 棘手 的 问题 。 正 如 之 前 已 经 提 到 ， 由 于 大 部 分 主流 计算 设备 都 不 支持 原 
生 的 工作 组 之 间 的 同步 特性 ， 所 以 OpenCL 标 准 本 身 不 会 对 工作 组 间 的 同步 有 任何 相关 功能 上 的 定义 。 倘 若 有 某 个 计算 设备 能 
持 工 作 组 之 间 的 同步 ， 那 也 得 自己 提供 私有 内 建 函数 来 支持 它 。 下 面 提供 三 种 通常 用 于 工作 组 之 间 做 数据 同步 的 手段 。 


第 一 种 方式 ， 通 过 原子 操作 对 全 局 人 存储 器 进行 原子 修改 。 其 实 ， 这 种 方法 我 们 在 上 面 对 一 个 数组 所 有 元 素 求 和 以 及 求 积 的 例 
子 中 已 经 展示 了 。 如 果 工作 组 不 多 ， 这 种 方法 会 显得 更 方便 ， 更 高 效 。 但 是 ， 如 果 工 作 组 的 数量 一 旦 很 多 ， 那 么 这 种 方式 可 能 就 
会 对 性 能 有 所 影响 了 。 毕 竟 ， 一 个 原子 操作 会 对 存储 器 总 线 做 锁 步 操作 ， 再 加 上 对 全 局 人 存储 器 的 读 写本 来 就 是 一 个 非常 缓慢 的 操 
作 ， 这 个 过 程 中 不 会 有 、 也 不 可 能 有 任何 数据 Cache 的 帮忙 ， 所 以 开销 是 巨大 的 。 


第 二 种 方式 ， 我 们 不 妨 把 需要 综合 (synthesize) 的 结果 输出 到 主机 端 ， 让 主机 端 处 理 器 对 剩余 结果 进行 处 理 。 就 拿 对 数组 
所 有 元 素 求 和 来 说 ， 如 果 我 们 一 共有 8192 个 元 素 ， 而 计算 设备 的 工作 组 最 大 能 含有 256 个 工作 项 ， 那 么 最 后 只 要 输出 
8192/256=32 个 数据 元 素 。 对 32 个 数据 元 素 求 和 在 主机 端 上 而 言 就 如 同 嚼 豆腐 一 样 容 易 。 但 如 果 数 组 元 素 更 多 一 些 ， 而 且 计算 
再 复杂 一 些 呢 ? 由 于 CPU 端 上 的 线性 计算 与 GPGPU 等 加 速 设 备 比 起 来 仍然 略 逊 一 筹 ， 所 以 我 们 也 得 不 到 更 好 的 性 能 提升 。 


第 三 种 方式 ， 这 个 时 候 我 们 还 是 将 每 个 工作 组 计算 得 到 的 数据 输出 到 全 局 存储 器 中 ， 等 这 些 数 据 传 完 之 后 ， 我 们 在 内 核 程序 
中 再 对 这 些 数 据 做 进一步 处 理 。 而 由 于 工作 组 之 间 本 身 没 有 任何 现成 的 同步 机 制 ， 因 此 ， 我 们 这 里 需要 借助 互 斥 体 来 进行 同步 。 
大 致 的 思路 是 ， 为 每 一 个 工作 组 分 配 一 个 互 斥 体 作为 锁 。 当 一 个 工作 组 大 小 的 元 素 个 数 都 写 进 全 局 存储 器 之 后 ， 那 么 相应 的 工作 
组 就 可 以 开始 计算 了 。 我 们 用 相应 于 工作 组 中 最 后 一 个 工作 项 的 工作 组 ID 来 解锁 ， 而 用 工作 组 的 第 一 个 工作 项 进行 上 锁 。 每 次 
操作 完 ， 工 作 组 的 个 数 就 变 为 原来 的 工作 组 中 最 大 能 包含 的 工作 项 的 个 数 (如 果 最 大 工作 组 尺寸 为 256， 就 是 1/256) 。 然 后 ， 
我 们 用 这 种 方式 不 断 缩 减 所 要 计算 的 元 素 个 数 ， 这 个 过 程 称 为 缩 碱 (reduction) 。 然 后 ， 等 我 们 要 处 理 的 元 素 个 数 缩减 到 少 于 
一 个 工作 组 最 大 能 包含 的 工作 项 的 个 数 之 后 ， 我 们 就 把 这 些 元 素 直 接 传 给 CPU 端 来 执行 了 。 


下 面 我们 综合 第 二 种 和 第 三 种 方式 来 给 出 本 章 最 后 一 个 代码 示例 。 该 示例 仍然 是 对 一 个 数组 计算 其 所 有 元 素 的 。 不 过 所 采用 
的 方法 如 第 三 种 同步 方案 所 介绍 的 那样 ， 先 对 每 个 工作 组 中 的 元 素 进 行 求 和 ， 然 后 写 到 相应 的 全 局 存储 器 中 暂 存 ， 等 最 大 工作 组 
个 数 的 元 素 都 处 理 完 之 后 就 能 进入 到 下 一 次 进 代 。 这 样 ， 在 一 次 挝 代 中 我 们 就 能 消耗 最 大 工作 组 元 素 个 数 的 平方 个 元 素 。 而 迁 代 
次 数 仅 需要 logmax-work-group-size (元 素 个 数 总 数 ) 。 作 为 本 章 最 后 一 个 代码 示例 ， 我 们 将 给 出 完整 的 代码 ， 而 不 仅仅 是 代 
码 片 段 。 以 下 是 主机 端的 代码 : 


#ifdef RAPEPIE 


include <OpenCL/opencl .h> 
else 

include <CL/cl.h> 

endif 

include <stdio.h> 

include <string.h> 
include <stdlib.h> 
include <sys/time.h> 

int main (void) 


cl nit ret> 

cl platform id Platform id = NULL; 
cl device id device id = NULL; 

cl context context = NULL; 

cl command queue command queue = NULL; 
cl mem srciMemObj = NULL; 

cl mem src2MemObj] = NULL; 

cl mem dstMemOb] = NULL; 

char *kernelSource = NULL; 

cl program program = NULL; 

cl kernel kernel = NULL; 

cl kernel kernel2 = NULL; 

int *pHostBuffer = NULL; 
int *pDeviceBuffer = NULL; 
// 获得 OpenCL 平 台 
clGetPlatformIDs (1, &platform id, NULL); 
if (platform id == NULL) 加 

{ 


puts ("Get OpenCL Platform failed!"); 
goto FINISH; 


} 
// 获得 OpenCL 计 算 设备 , 这 里 使 用 GPU 类 型 的 计算 设备 
clGetDeviceIDs (Platform id, CL _ DEVICE TYPE GPU, 1, &qevice id, 


if (device id == NULL) 
{ 


puts ("No GPU available as a compute device!"); 
goto FINISH; 


} 

// 根据 设备 ID 来 创建 上 下 文 

context = clCreateContext (NULL, 1, &device id, NULL, NULL, 
&ret); 


if (context == NULL) 

{ 
puts ("Context not established!"); 
goto FINISH; 


} 

// 根据 上 下 文 与 设备 ID 来 创建 命令 队列 

command queue = clCreateCommandOueue (context, device id, 0, 
&ret); 


if (command queue == NULL) 

{ 
puts ("Command queue cannot be created!"); 
goto FINISH; 


} 

// 我 们 分 配 64MB 的 存储 空间 ,将 主机 端的 数据 传递 到 设 备 端 

const size 七 contentLength = sizeof(int) * 8 * 1024 * 1024; 

srclMemObj = clCreateBuffer (context, CL MEM READ ONLY, 
contentLength, NULL, &ret); 


if(srclMemObj] == NULL) 


puts("Sourcel memory object failed to create!"); 
goto FINISH; 


src2MemOb]j] = clCreateBuffer (context, CL MEM READ WRITE, 


contentLength, NULL, &ret); 


if (src2MemObj] == NULL) 


puts ("Source2 memory object failed to create!"); 
goto FINISH; 


// 在 主机 端 分 配 并 初始 化 64MB 的 缓存 数据 
pHostBuffer = malloc (contentLength); 
for(int i = 0; i < contentLength / sizeof (int); i++) 
pHostBuffer[i] =i+1; 
// 对 srclMemObj 的 数据 传输 ,我 们 使 用 非 阻塞 方 式 ， 
// 等 后 续 设 置 完成 后 通过 事件 等 待机 制 进行 同步 
ret = clEnqueueWriteBuffer (command queue, srclMemObj, CL TRUE, 
0,contentLength, pHostBuffer, 0, 
NULL, NULL); 


if(ret != CL SUCCESS) 
{ 
puts ("Datal transfer failed"); 
goto FINISH; 
} 
// 指定 内 核 源 文件 路 径 , 这 个 路 径 根据 读者 当前 环境 可 以 更 改 
// 这 里 使 用 绝对 路 径 也 是 避免 不 同系 统 需要 调用 不 同 API 来 获取 当前 路 径 


const char *pFileName = "/Users/zennychen/Downloads/test.c1l"; 


FILE *fp = fopen (pFileName, "r"); 
if (fp == NULL) 


puts ("The specified kernel source fil cannot be opened!"); 
goto FINISH; 


fseek (fp, 0, SEEK END); 
const long kernelLength = ftell (fp); 
fseek (fp, 0, SEEK SET); 


kernelSource = malloc (kernelLength); 

fread (kernelSource, 1, kernelLength, fp); 

fclose (fp); 

program = clCreateProgramWithSource (context, 1, 

(const char**)&kernelSource, 
(const size 七 *)¢&kernelLength, 
&ret); 


// 获取 最 大 工作 组 大 小 

size 七 maxWorkGroupSize = 0; 

clGetDeviceInfo(device id, CL DEVICE MAX WORK GROUP SIZE, 
sizeof (maxWorkGroupSize), é&maxWorkGroupSize, 
NULL); 

// 在 编译 选项 中 定义 一 个 名 为 GROUP NUMBI 

// 用 于 指定 每 个 工作 组 一 共有 多 少 工作 项 


[| 


R OF WORKITEMS 的 宏 ， 


sprintf (kernelSource, "-D GROUP NUMBER OF WORKITEMS=%zZu", 


} 


maxWorkGroupSize); 
ret = clBuildProgram(program, 1, &device id, kernelSource, NULL, 
NULL); 
if (ret != CL SUCCESS) 
{ 


size t len; 
char buffer[8 * 1024]; 
printf ("Error: Failed to build program executable!\n"); 
clGetProgramBuildInfo (program, device id 

CL PROGRAM BUILD LOG, 

sizeof (buffer), buffer, &len); 
printf ("$s\n", buffer); 
goto FINISH; 


} 

// kernelSource 后 面 不 再 使 用 ,这 里 可 以 立即 对 它 释 放 

free (kernelSource); 

kernelSource = NULL; 

// 创建 内 核 函 数 

kernel = clCreateKernel (program, "kernel test", &ret) ， 
if (kernel == NULL) 加 


puts ("Kernel failed to create!"); 
goto FINISH; 


} 
// 创建 用 于 存放 锁 以 及 作为 输出 剩余 元 素 个 数 的 缓存 
// 由 于 第 一 次 迭代 中 锁 的 个 数 为 总 workgroup 的 个 数 除 以 maxWorkGroupSize 
SLC2Memob]j = clCreateBuffer (context, CL MEM READ WRITE， 
contentLength / maxWorkGroupSize / maxWorkGroupSsize, 
NULL, &ret); 


if(ret != CL SUCCESS) 
{ 
puts ("Lock buffer creating failed!"); 
goto FINISH; 
} 
// 创建 用 于 结果 输出 的 缓存 对 象 
// 用 户 输出 结果 的 缓存 最 多 只 有 maxWorkGroupSize * maxWorkGroupSize 
// 个 元 素 
dstMemObj = clCreateBuffer (context, CL MEM READ WRITE, 
maxWorkGroupSize * maxWorkGroupSize * sizeof (int), 
NULL, &ret); 


if(ret != CL SUCCESS) 
{ 


puts ("Destination buffer creating failed!"); 
goto FINISH; 
} 
ret = clSetKernelArg (kernel, 0, sizeof (cl mem), 
(void *)&dqstMemob]Jj ) 
ret |= clSetKernelArg (kernel, 1, sizeof (cl mem), 
(void *x)&src1Memobj ) 7 
ret |= clSetKernelArg (kernel, 2, sizeof (cl mem), 
(void *) &src2Memobj ) 7 


if(ret != CL SUCCESS) 
{ 


puts ("Set arguments error!"); 
goto FINISH; 


// 将 内 核 执行 命令 排 入 命令 队列 


ret = clEnqueueNDRangeKernel (command queue, kernel, 1, NULL, 


(const ‘size t[]) 

{contentLength / sizeof (int)}, 
(const size t[]) {maxWorkGroupSize}, 
0, NULL, NULL); 


if(ret != CL _ SUCCESS) 
{ 


puts ("KkernelL1 execution failed"); 
goto FINISH; 
} 
// 这 里 用 clFinish 做 命令 执行 同步 
clFinish (command queue); 
// 准备 做 校 验 
pDeviceBuffer = malloc (contentLength); 
// 这 里 使 用 阻塞 的 方式 读 取 数据 
int remainCount; 
// 先 获取 剩余 的 数组 元 素 的 个 数 
clEncueueReadBuffer (command queue, Src2Memob]j， CL TRUE，0， 
sizeof (int), 
&remainCount, 0, NULL, NULL); 


// 然后 获取 相关 剩余 的 元 素 
clEnqueueReadBuffer (command queue, dstMemObj, CL TRUE, 0, 
remainCount * sizeof (int), 
pDeviceBuffer, 0, NULL, NULL); 


// 做 数据 校 验 
int deviceSum = 0; 
for(int i = 0; i < remainCount; i++) 
deviceSum += pDeviceBuffer[i]; 
int hostSum = 0; 
for(lint i = 0; i < contentLength / sizeof (int); i++) 
hostSum += pHostBuffer[il]; 
puts (deviceSum == hostSum "OK" : "NG"); 
FINISH: 
if (pHostBuffer != NULL) 
free (pHostBuffer); 
if (pDeviceBuffer != NULL) 
free (pDeviceBuffer); 
if (kernelSource != NULL) 
free (kernelSource); 
if(srclMemObj] != NULL) 
clReleaseMemObject (srclMemObj); 
if(src2MemObj] != NULL) 
clReleaseMemObject (src2MemObj); 
if(dstMemOb] != NULL) 
clReleaseMemObject (dstMemObj); 


clReleaseKernel (kernel2); 
if (program != NULL) 
clReleaseProgram (program); 
if (command queue != NULL) 
clReleaseCommandQueue (command queue); 
(context != NULL) 
clReleaseContext (context); 
puts ("Program Complete") 
return 0; 


i 


上 述 代码 中 几乎 每 条 关键 语句 都 有 相关 注释 ， 这 里 不 追加 讲解 。 下 面 给 出 完整 的 OpenCL 内 核 代码 : 


// 我 们 将 第 二 个 源 修改 为 read-write 属 性 ,然后 将 它 作为 存 放 锁 的 全 局 存储 空间 
kernel void kernel test( global int *pDst, 
_ global int *pSrcl, _ global int *pLocks) 

{ 

local int tmpBuffer [GROUP NUMBER OF WORKITEMS]; 

const int index = get local id(0); 

const int group index = get group id(0); 

int group count = get num groups (0); 

int address offset = group index * GROUP NUMBER OF WORKITEMS + 

加 index; 加 ea 

// 第 一 次 迭代 从 pSrcl 获 取 数 据 

_ global int *pData = pSrcl; 

while (group count >= GROUP NUMBER OF WORKITEMS 

&& group index < group count) 


工 


{ 
if(index == 0) 
{ 
// 这 里 使 用 按 位 或 来 设置 锁 , 由 于 不 管 哪个 整 数 ， 
// 与 1 相 或 之 后 都 不 会 为 0, 这 里 用 非 0 表 示 上 锁 状 态 ;0 表 示 解 锁 状 态 
atomic or (&pLocks [group ingdex], 1); 


} 

// 对 当前 工作 组 中 的 所 有 工作 项 先 暂 存 局 部 存储 器 
tmpBuffer [index] = pDataladdress offset]; 
barrier (CLK LOCAL MEM FENCE); 


if(index == 0) 


// 用 第 一 个 工作 项 做 求 和 计算 


int sum = 0; 
for(int i 


Sum += tmpBuffer[il]; 


// 输出 到 对 应 工作 组 索 3 
pDst [group index] 


// 这 里 假定 GROUP NUMBER OF 
4 由 于 绝 大 多 数 计算 设备 都 能 满足 这 个 条 件 


if((group index & 


(GROUP ] 


GROUP NUMBER OF WORKITI 


的 全 局 输出 存储 器 
二 SUm7 
WORKITEMS 是 2 的 n 次 替 


RF 


EMS — 1) 


// 让 工作 组 索引 对 应 于 一 个 工作 组 
// 最 后 一 个 工作 项 的 工作 项 进行 解锁 
atomic xchg(&pLocks [group index / 


GROUP NUMBER OF WORKITEMS] 


,1 0); 


续 要 处 理 的 工作 组 个 数 需要 除 以 最 大 工作 组 大 小 


MW 经 处 理 了 GRGO 
// 即 一 共 GROUP NUMBI 
// 个 元 素 


group count /= GROUP NUMBI 


UP NUMBER OF WORKIT 
ER OF 1 WORKITEMS 


ER OF WORKITEMS; 


if(index == 0 && group index < group count) 


{ 


// 对 于 剩余 的 工作 项 ,在 每 一 个 工作 组 中 用 第 


int lock; 
do 
{ 


// 对 于 OpenCL 2.0 以 下 的 版 本 ， 
// 我 们 可 以 使 用 原子 加 法 来 模拟 OpenCL 2.0 中 的 atomic load 


lock = 
} 
while(lock != 


} 
// 从 第 
PData 


至 交谈 代 开始 
= pDst; 


atomic add(&pLocks [group index], 


0); 


;从 pDst 获 取 数 据 


} 
// 将 pLock 作 为 剩余 要 被 主机 端 处 理 的 元 素 个 数 输 出 
if(get global id(0) == 0) 


pLocks[0] 


= group count * 


R OF WORKITEMS - 1)) 


0); 


0; i < GROUP NUMBER OF WORKITEMS; i++) 


EMS 个 工作 组 的 元 素 个 数 ， 
*GROUP_ NUMBER OF WORKITEMS 


一 个 工作 项 等 待 锁 被 打开 


GROUP NUMBER OF WORKITEMS; 


上 述 的 内 核 代 码 对 于 数组 求 和 算 


最 后 想 提醒 各 位 读者 的 是 ， 一 个 计算 设备 上 同时 并 发 执行 工作 组 的 个 数 是 有 限 的 。 
某 个 或 某 些 非 活跃 的 工作 组 产生 依 束 等待， 那么 内 核 程序 会 被 挂 死 。 
后 才能 把 非 活跃 的 工作 组 调度 进来 执行 。 这 一 


我 们 先 在 主机 端 


法 而 言 尽 


管 不 能 


点 在 第 8 章 介 


是 最 高 效 的 ， 


但 是 作为 对 工作 组 之 间 的 同步 策略 而 言 已 经 具有 代表 性 。 


这 意味 着 如 果 当 前 所 有 活跃 着 的 工作 组 对 
为 一 个 活跃 的 工作 组 需要 被 隐 退 (也 就 是 完全 执行 完 ) 之 


绍 GCN 架 构 GPU 中 也 会 提 到 。 比 如 以 下 例子 : 


增加 一 个 当前 计算 设备 有 多 少 个 CU， 用 宏 来 定义 ， 然 后 传 给 内 核 程序 。 


// 获 
size 


区 最 大 工作 组 大 小 
t maxWor 


clGet 


clGet 


DeviceInfo (device iqd, 


kGroupSize = 0; 


CL DEVICE 


MAX WORK GROUP SIZE， 


DeviceIn 


// 在 编译 选项 中 定 
// 用 于 指定 每 个 工作 组 一 共 


sprin 


fo (device ia 


sizeof (maxWorkGroupSize) 
cl uint maxComputeUnits = 0; 


CL DEVICE 


MAX COMPUTE UNITS, 


Sizeof (maxC 
义 一 个 名 为 GRO 


tf (kernelSource, 
"-D GROUP NUMBER OF 
maxWorkGroupSize, m 


omputeUni 


ts), 


&maxComputeUni 


UP_NUMBER OF WORKITEMS 的 宏 ， 
有 多 少 


工作 项 


" WORKITEMS= 
axCompu 


&maxWorkGroupSize, NULL); 


ts, NULL); 


zu -D MAX COMPUTE UNITS=$u" 


teUnits); 


以 下 是 内 核 程序 : 


kernel void kernel test (global volatile int *pDst, 


{ 


global int *pSrcl, global 


const int gid = get group id(0); 


const int index 


if(index == 0) 


{ 


if(gid < MAX COMPUT, 


get local id(0); 


E UNITS * 3 


while (pDst[1] == | 


if (gid == 10000) 


0); 


/ 2) 


int “BSrc2) 


pDst[1] = 1; 
atomic add (pDst, 1); 
} 
} 


在 Intel HD Graphics 5000 下 ， 如 果 是 CU 个 数 的 3/2 情 况 下 ， 仍 然 可 以 正常 运行 完 ， 因 为 大 部 分 计算 设备 的 每 个 CU 在 某 些 
情况 下 可 以 调度 几 个 工作 组 进行 执行 ， 如 果 所 需 的 执行 资源 足够 。 而 如 果 把 上 述 代 码 中 的 3/2 改 成 2， 那 么 程序 就 挂 了 。 内 核 程 
序 会 执行 超时 。 


所 以 我 们 在 牵扯 到 工作 组 之 间 的 同步 时 需要 务必 当心 ， 不 能 同时 让 过 多 的 工作 组 依赖 某 一 个 或 某 一 些 工作 组 ， 尤 其 是 相互 依 
赖 的 工作 组 之 间 索 引 跨 度 很 大 的 场合 一 定 要 避免 。 


6.6 ”本 章 小 结 


本 章 介绍 了 OpenCL 所 支持 的 同步 机 制 ， 包 括 主 机 端 对 OpenCL 命 令 队 列 的 同步 和 设备 端 对 工作 项 执行 同步 ， 以 及 对 存储 器 
读 写 的 同步 。 这 些 机 制 主要 是 : 主机 端 事件 、 原 子 操作 、 设 备 端 事件 和 人 存储 器 栅栏 ， 最 后 以 我 们 对 工作 组 间 同 步 的 观点 结束 。 


第 7 章 OpenCL 与 OpenGL 互 操作 


本 章 我 们 将 介绍 OpenCL 与 OpenGL 的 交互 操作 。 将 先后 描述 OpenCL 与 OpenGL 共 享 上 下 文 ，OpenCL 存 储 器 对 象 与 缓存 
对 象 、 纹 理 对 象 以 及 演 染 缓存 对 象 的 共享 ，OpenGL 事 件 对 象 与 OpenCL 事 件 共 享 。 


OpenCL 与 OpenGL 的 互 操作 能 给 我 们 带 来 什么 ? 尽管 OpenGL 4.3 版 本 以 及 OpenGL ES 3.1 版 本 均 引 入 了 计算 着 色 器 
(compute shader) 用 于 做 通用 计算 ， 但 是 一 方面 OpenGL 中 的 计算 着 色 器 所 提供 的 通用 计算 能 力 仍然 十 分 有 限 ， 另 外 ， 现 在 
还 有 不 少 系统 尚 无 法 支持 OpenGL 4.3 或 OpenGL ES 3.1。 因 此 ， 利 用 OpenCL 来 做 用 于 粒子 物理 碰撞 等 通用 计算 还 是 非常 不 错 

的 选择 。 另 外 ，OpenCL 与 OpenGL 的 存储 器 对 象 共享 也 避免 了 两 者 之 间 的 数据 传输 ， 因 此 不 会 引入 太 多 的 额外 性 能 损耗 。 


不 过 ， 这 里 也 要 给 OpenCL 泼 点 冷水 。 如 果 各 位 读者 仅仅 是 对 纹理 或 者 对 绘制 出 来 的 图 形 做 些 简单 的 图 像 处 理 操作 ， 如 一 些 
滤 镜 、 高 斯 模糊 等 操作 ， 那 么 直接 用 片段 着 色 器 (fragment shader) 的 效率 往往 会 比 借助 OpenCL 高 。 因 为 片段 着 色 器 阶段 过 
后 就 能 立即 做 图 形 演 染 流水 线 最 后 阶段 的 后 处 理 ， 然 后 就 把 最 终 演 好 的 图 输出 到 显示 设备 上 了 。 而 OpenCL 内 核 程序 的 执行 还 需 
要 另外 开辟 一 道 计 算 流水 线 ， 会 引入 一 些 额 外 的 开销 。 除 此 之 外 ，OpenCL 内 核 程序 也 缺乏 对 矩阵 类 型 的 支持 ， 包 括 原 生 对 向 量 
与 矩阵 乘法 、 和 矩 阵 之 间 的 乘法 计算 的 支持 。 相 比 于 OpenCL 内 核 程序 ， 专 用 于 图 形 演 染 流水 线 的 着 色 器 往往 能 生成 更 优化 的 目标 
代码 。 因 此 ， 我 们 所 采取 的 方针 是 : 如 果 当 前 OpenGL 环 境 能 支持 顶点 着 色 器 (vrtex sader) 、 细 分 曲面 控制 着 色 器 

(tessellation control shader) 、 细 分 曲面 计算 着 色 器 (tessellation evaluation shader) 、 几 何 着 色 器 (geometry 
shader) 以 及 片段 着 色 器 (fragment shader) ， 并 且 能 用 以 上 的 某 种 着 色 器 解决 当前 问题 的 ， 那 么 我 们 优先 考虑 使 用 OpenGL 
自 带 的 着 色 器 。 倘 若 当 前 OpenGL 能 支持 计算 着 色 器 ， 那 么 我 们 也 优先 考虑 计算 着 色 器 ， 如 果 不 够 用 ,我 们 再 考虑 使 用 OpenCL 
做 程序 加 速 。 


这 里 再 给 大 家 一 个 提示 ， 当 前 在 大 部 分 嵌入 式 移 动 GPU 上 ， 其 通用 计算 性 能 非常 弱 ， 使 得 某 些 稍 复杂 的 计算 利用 GPU 的 效 


率 还 不 如 CPU 高 。 此 时 ， 作 为 开发 人 员 ， 我 们 应 该 先 对 当前 环境 做 些 性 能 测试 ， 然 后 再 选择 使 用 哪 种 优化 方案 ， 而 不 是 盲目 地 
去 使 用 OpenCL。 


7.1 从 一 个 OpenGL 上 下 文 来 创建 OpenCL 上 下 文 


对 于 OpenCL 要 与 OpenGL 进 行 交 互 ，OpenCL 的 上 下 文 必须 基于 OpenGL 的 上 下 文 进行 创建 ， 原 因 在 于 OpenGL 比 
OpenCL 要 早 10 多 年 诞生 。 因 此 ， 我 们 在 创建 OpenCL 上 下 文 之 前 必须 确保 OpenGL 的 上 下 文 已 经 创建 完毕 ， 并 且 初 始 化 设置 都 
成 功 。 


其 次 ，OpenCL 与 OpenGL 的 可 交互 性 是 OpenCl 平 台 的 一 个 扩展 。 因 此 ， 我 们 在 创建 OpenCL 上 下 文 之 前 得 先 查 询 一 下 ， 
当前 OpenCL 计 算 设备 是 否 支 持 这 个 扩展 。 我 们 使 用 CL PLATFORM_EXTENSIONS 参 数 来 调用 clGetPlatformlnfo 函 数 ,， 或 用 
CL_DEVICE_EXTENSIONS 人 参数 来 调用 clGetDevicelnfo 函 数 ， 然 后 遍历 返回 的 字符 串 是 否 含有 cl_khr_gl_sharing， 如 果 包 含 则 
说 明 当前 设备 支持 OpenCL 与 OpenGL 的 可 互 操作 性 ; 如 果 不 包含 ， 则 当前 设备 可 能 不 支持 OpenCL 与 OpenGL 的 可 互 操作 性 。 
这 里 对 于 Mac 用 户 要 提醒 一 下 。 在 OS X 中 (至少 在 10.9 以 及 10.10 版 本 中 ) ， 查 询 结果 是 不 含 cl_khr_gl_sharing 这 个 字符 串 的 ， 
但 是 却 包 含 了 Apple 自 己 的 cl_APPLE_gl_sharing。 我 们 只 要 查询 到 有 cl_APPLE_gl_sharing 存 在 ， 那 么 说 明 当 前 的 Mac 能 够 支持 
OpenCL 与 OpenGL 的 可 互 操作 性 。 


当前 两 步 完 成 之 后 ， 我 们 就 可 以 开始 着 手 建 六 OpenCL 上 下 文 了 。 我 们 这 里 需要 为 OpenCL 上 下 文 配置 其 相关 的 ,与 
OpenGL 相 关联 的 上 下 文 的 属性 ， 通 过 传递 c|_ context_ properties 参 数 来 实现 。cl context_properties 这 个 类 型 其 实 是 一 个 能 完 
全 包容 主机 端 操作 系统 指针 长 度 的 整 型 。 例 如 ， 如 果 当 前 操作 系统 是 64 位 的 ， 那 么 cl_context_properties 就 是 64 位 的 长 整 型 ; 
如 果 当 前 操作 系统 是 32 位 的 ， 那 么 cl_context_properties 则 是 32 位 的 整 型 。OpenCL 上 下 文 属性 的 配置 采用 的 是 键 值 对 的 数 
组 。“ 键 ”是 由 OpenCL 标 准 和 实现 定义 好 的 属性 ， 而 值 则 是 对 应 该 键 的 具体 数值 。 该 数组 以 整数 0 结尾 ， 表 示 结 束 。 由 于 不 同 
的 桌面 系统 其 底层 图 形 驱动 做 的 不 一 样 ， 因 此 对 于 不 同系 统 ， 我 们 需要 分 别 调 用 不 同 的 系统 API 来 获得 当前 OpenGL 的 上 下 文 。 


OpenCL 标 准 定义 了 一 些 属性 名 对 应 到 不 同 的 操作 系统 上 。 例 如 ， 在 Linux 上 提供 了 CL_GLX_DISPLAY_KHR 属 性 , 在 
Windows 上 提供 了 CL WGL _HDC_KHR 属 性 用 于 设置 显示 设备 对 象 。 而 提供 CL_GL_CONTEXT_KHR 属 性 来 设置 这 两 个 系统 的 当 
前 OpenGL 上 下 文 对 象 。 但 是 在 OS X 系 统 下 都 没有 定义 这 些 属性 名 ， 因 此 我 们 只 能 使 用 Apple 自 带 的 
CL_CONTEXT_PROPERTY_USE_CGL SHAREGROUP_APPLE 属 性 来 设置 当前 OpenCL 与 OpenGL 的 共享 组 对 象 。 所 以 ， 我 们 往 
往 会 通过 条 件 预 编译 (针对 C/C++ 以 及 Objective-C/C++) 来 配置 OpenCL 上 下 文 属性 ， 例 如 以 下 代码 所 示 : 


#ifdef APPLE 
CGLContextob]j cgl] context = CGLGetCurrentContext (); 
CGLShareGroupOb] sharegroup = CGLGetShareGroup (cgl] context); 
gcl gl set sharegroup (sharegroup); 

#endif 
cl context properties properties[] = 


{ 


#ifdef WIN32 
CL GL CONTEXT KHR ， 
(cl context properties)wglGetCurrentContext (), 
CL WGL HDC KHR , (cl context properties) wglGetCurrentDC ()， 
#engif 
#ifdef linux 
CL GL CONTEXT KHR ， 
(cl context properties)glXGetCurrentContext (), 
CL GLX DISPLAY KHR ， 
(cl context properties)glXGetCurrentDisplay ()， 
#endif E 
#ifdef APPLE 


CL CONTEXT PROPERTY USE CGL SHAREGROUP APPIE， 
(cl context Properties) sharegroup, 
#endif 


0 
}; 
context = clCreateContext (properties, 1, &oclDevice, NULL, NULL, 
NULL); 


对 于 上 述 分 别 应 对 Windows、Linux 与 OS X 系 统 来 创建 c|_ context 对 象 的 方法 这 里 不 过 多 描述 。 因 为 这 个 就 是 各 家 系统 对 
OpenGL、OpenCL 的 支持 不 太一 样 所 致 ， 没 有 太 多 道理 可 讲 。 我 们 一 旦 将 c|_context 对 象 创建 好 之 后 ， 后 续 对 各 种 buffer 的 使 
用 其 实 都 一 样 ， 均 能 满足 OpenCL 官 方 提 供 的 标准 APl。 


7.2 OpenCL 使 用 OpenGL 共 享 的 缓存 对 象 


我 们 先 介 绍 一 人 OpenCL 如 何 通过 已 有 的 OpenGL 缓 存 对 象 来 创建 与 之 共享 的 OpenCL 人 存储 器 对 象 。OpenCL 标 准 提供 了 以 
下 冰 数 APl: 


cl mem clCreateFromGLBuffer (cl context context, 
cl mem flags flags, 
GLuint bufobj, cl int *errcode ret) 


" 参数 context 必 须 是 一 个 通过 从 OpenGL 上 下 文 或 与 OpenGL 关 联 的 共享 组 创建 得 到 的 OpenCL 上 下 文 。 


“ 参数 flags 用 于 指明 该 存储 器 对 象 的 读 写 属性 ， 并 且 只 能 使 用 CL_MEM_READ_ONLY、CL_MEM_WRITE_ONLY 或 


CL_MEM_READ_WRITE 的 其 中 一 个 。 


“ 参数 bufobj 就 是 一 个 OpenGL 缓 存 对 象 名 。 该 对 象 不 能 是 0， 而 是 要 通过 glGenBuffers 这 一 OpenGL 函数 API 所 获得 的 缓存 对 


象 。 而 在 调用 此 OpenCL 函 数 API 之 前 ， 应 该 已 经 使 用 了 glBufferData 这 一 OpenGIL 函数 API 对 该 缓存 对 象 进 行 初 始 化 了 。 


如 果 相 应 的 OpenCL 存 储 器 对 象 创建 成 功 ， 则 返回 有 效 的 cmem 对 象 。 否 则 ， 将 返回 空 ， 并 且 我 们 可 以 通过 errcode ret 参 
数 来 查找 错误 码 。 


由 于 现在 市 面 上 在 Windows 系 统 上 介绍 OpenCL 与 OpenGL 交 互 的 例子 比较 多 ， 而 最 最 缺乏 的 是 在 OS X 环 境 下 OpenCLl 与 
OpenGL 的 交互 示例 。 因 此 ， 本 书 将 针对 OS X 系 统 来 给 出 OpenCL 与 OpenGL 的 交互 代码 示例 。 我 们 这 里 先 给 出 CL 与 GL 共享 组 
存 对 象 的 例子 。 下 面 提供 核心 的 代码 片段 ， 完 整 的 工程 代码 可 以 参考 华章 官方 网 站 上 针对 本 书 的 资源 。 


import "MyGLView.h" 

define GL DO NOT WARN IF MULTI GL VERSION HEADERS INCLUDED 
// 这 里 必须 注意 ! <g13.h> 头 文件 必须 被 包含 并 取代 <g1.h>， 

// 否则 VAO 接 口 会 调用 不 正常 , 从 而 无 法 正确 显示 图 形 ! 

import <OpenGL/g13.h> 

ifdef APPLE 

include <OpenCL/opencl.h> 
else 

include <CL/cl.h> 

endif 

Qinterface MyGLView () 


@private 
GLuint mpProgram; 
GLuint mVAO, mVBOVertices, mVBOColors; 
NSInteger mlag; 
} 
Qend 
Qimplementation MyGLView 
static GLuint CompileShader (GLenum type, const char *filename) 


{ 


FILE *fp = fopen (filename, "“r"); 
if (fp == NULL) 
{ 


} 


printf ("File %s cannot be opened!", filename); 
return 0; 

} 

fseek (fp, 0, SEEK END); 

const size t length = ftell (fp); 

fseek (fp, 0, SEEK SET); 

GLchar *souceBuffer = malloc (length); 

fread (souceBuffer, 1, length, fp); 

fclose (fp); 

const GLchar *source = souceBuffer; 

GLuint shader = glCreateShader (type); 

glShaderSource (shader, 1, &source, (GLint []){ 

(int) lengthn 


}); 
glCompileShader (shader); 
free (souceBuffer); 

GLint logLength; 
glGetShaderiv (shader, GL INFO LOG LENGTH, ¢&logLength); 
if (logLength > 0) 
{ 


GLchar *lodg = malloc (logLength); 
glGetShaderIinfoLog (shader, logLength, &logLength, 109); 
printf ("Shader compile log:\n%ss\n", 10g); 

free (10g); 


} 

GLint status; 

glGetShaderiv (shader, GL COMPILE STATUS, &status); 
if(status == 0) 

1 


glDeleteShader (Shaqer) 
return 0; 


} 


return shader; 


static bool LinkProgram (GLuint prog) 


{ 


} 


glLinkProgram (prog); 
GLint logLength; 
glGetProgramiv (prog, GL INFO LOG LENGTH, &logLength); 
if (logLength > 0) 
{ 


GLchar xlog = (GLchar *)malloc (logLengtnh); 
glGetPrograminfoLog (prog, logLength, &logLength, log); 
printf ("Program link log:\nss\n", 109g); 

free (109g); 


} 
GLint status; 
glGetProgramiv (prog, GL LINK STATUS, &status); 
if (status == 0) 
return false; 
return true; 


static bool ValidateProgram (GLuint prog) 


{ 


GLint logLength, status; 
glValidateProgram (prog); 
glGetProgramiv (prog, GL INFO LOG LENGTH, &logLength); 
if (logLength > 0) 
{ 


GLchar xlog = (GLchar *)malloc (logLength); 
glGetProgramIinfoLog (prog, logLength, &logLength, log); 
printf ("Program validate log:\n%s\n", lo0g); 
free (10g); 
} 
glGetProgramiv (prog, GL VALIDATE STATUS, &status); 
if (status == 0) 
return false; 
EetuUriy trUuey 


(BOOL) loadShaders 


// 创建 着 色 器 程序 对 象 

mProgram = glCreateProgram(); 

// 在 做 程序 连接 之 前 绑 定 顶点 着 色 器 中 属性 的 位 置 

glBindAttribLocation (mProgram, 0, "inPos"); 

glBindAttribLocation (mProgram, 1, "inColor"); 

// 创建 并 编译 顶点 着 色 器 

NSString *vertShaderPathname = [[NSBundle mainBundle] 
pathForResource:Q@"shader" 
ofType:@"vsh"]; 

GLuint vertShagder = CompileShagder (GL VERTEX SHADER, 

[vertShaderPathname UTF8String]); 


if(vertShader == 0) 

{ 
NSLog (@"Failed to compile vertex shader"); 
return NO; 


// 创建 并 编译 片段 着 色 器 
NSString *fragShaderPathname = [[NSBundle mainBundlel] 
pathForResource:Q@"shader" 
ofType:@"fsh"]; 
GLuint fragShader = CompileShaqer ( 
GL FRAGMENT SHADER, 
[fragShaderPathname UTF8String]); 


if (fragShader == 0) 
{ 


NSLog (@"Failed to compile fragment shader"); 
return NO; 
} 
// 将 顶点 着 色 器 添加 到 程序 中 
glAttachShader (mProgram, vertShader); 
// 将 片段 着 色 器 添加 到 程序 中 
glAttachShader (mProgram, fragShader); 
// 连接 程序 
if (!LinkProgram(mProgram)) 
{ 
SLog (@"Failed to link program: %d", mpProgram); 
return NO; 

} 

// 这 里 顶点 着 色 器 对 象 以 及 片段 着 色 器 对 象 已 经 没 用 了 ,将 它们 释放 
if(vertShader != 0) 

glDeleteShader (vertShader); 

if (fragShader != 0) 

glDeleteShader (fragShader); 
// 校 验 程序 


return ValidqateProgram (mProgram); 


} 

- (id)initWithFrame: (NSRect) frameRect 

{ 
self = [super initWithFrame:frameRect]; 
const NSOpenGLPixelFormatAttribute attrs[] = 
{ 

// 可 选项 ,表示 开启 双 缓 冲 

SOpenGLPFADoUbleBuffer, 

// 必须 使 用 这 个 属性 以 指定 我 们 将 使 用 OpenGL Core Profile 

NSOpenGLPFAOpPenGLProfile, 

// 指定 使 用 OpenGL3.2 Core Profile 

SOpenGLProfileVersion3 2Core, 

// 这 里 使 用 多 重 采样 反 走样 处 理 

NSOpenGLPFAMuUultisample, 

NSOpenGLPFASampleBuffers, (NSOpenGLPixelFormatAttribute)1, 

// 采用 4 个 样本 对 应 一 个 像素 

SOpenGLPFASamples, (NSOpenGLPixelFormatAttribute)4, 

// end 

0 


}; 
NSOpenGLPixelFormat *pf = [[NSOpenGLPixelFormat alloc] 
initWithAttributes:attrs]; 


if (pf == nil) 
{ 


NSLog (@"No OpenGL pixel format"); 
return nil; 
} 
NSOPenGLContext *context = [[NSOPenGLContext alloc] 
initWithFormat:pf shareContext:nil]; 
[self setPixelFormat:pf]; 
[pf releasel]; 
[self setOpenGLContext:context]; 
[context releasel]; 
return self; 


} 

- (void)dealloc 

{ 
NSLog (@"MyGLView deallocated!"); 
[super dealloc]; 


- (void)destroyBuffers 


// 释放 程序 对 象 
if (mProgram != 0) 

glDeleteProgram (ImProgram) 
// 释放 VRAO 对 象 
if (mVAO != 0) 

glDeleteVertexArrays (1l, &mVAO); 
// 释放 顶点 与 颜色 VBO 
if (mVBOVertices != 0) 
glDeleteBuffers (1， é&mVBOVertices); 
if (mVBOColors != 0) 
glDeleteBuffers (1, &mVBOColors); 
7/ .清除 二 币 诡 
[[self openGLContext] clearDrawablel]; 
[self clearGLContext]; 


} 
- (void)setTag: (NSInteger)tag 


mlag = tag; 
- (NSInteger)tag 
return mlag; 


- (void)prepareOpenGL 


[[self openGLContext] makeCurrentContext]; 

// 用 垂直 刷新 率 来 同步 缓存 交换 

GLint swapInt = 1; 

[[self openGLContext] setValues:&swapIint forParameter: 

NSOpenGLCPSwaplntervall]; 

// 在 OpenGL 3.2 Core Profile 中 ,必须 使 用 VAO (顶点 数组 对 象 ) 

glGenVertexArrays (1, &mVAO); 

glBindVertexArray (mVAO); 

// 这 里 要 绘制 一 个 圆 形 , 因 此 需要 362 个 顶点 ， 

// 每 个 顶点 分 配 4 个 分 量 (分别 为 X，Yy,， Zz 坐标 与 Ww) 

// 最 后 扩充 到 512 个 顶点 , 以 优化 OpenCL 的 数据 处 理 

const size t dataLength = 512 * 4 * sizeof (GLfloat); 

// 设置 顶点 VBO 

glGenBuffers (1, é&mVBOVertices); 

glBingBuffer (GL ARRAY BUFFER, mVBOVertices); 

// 初始 化 顶点 VBO, 这 里 仅 分 配 空间 ,而 不 传递 任何 数据 

glBufferData (GL ARRAY BUFFER, dataLength, NULL, GL STATIC DRAW); 

GLenum errCode = glGetError (); 加 加 

if (errCode != GL NO ERROR) 

NSLog (@"Buffer data vertices error!"); 

// 将 顶点 VBO 绑 定 到 属性 0 
lEnableVertexAttribArray (0); 
lVertexAttribPointer (0, 4, GL FLOAT, GL FALSE 0, 
(const GLvoid *)0); 


~ 


/ 设置 颜色 VBO 
LGenBuffers (1, &mVBOColors); 
lBingdBuffer (GL ARRAY BUFFER, mVBOColors); 

/ 初始 化 颜色 VBO, 这 里 仅 分 配 空间 ,不 传递 任何 数据 
lBufferData (GL ARRAY BUFFER, dataLength, NULL, GL STATIC DRAW); 
// 将 颜色 VBO 绑 定 到 属性 1 
lEnableVertexAttribArray (1); 
lVertexAttribPpointer (1, 4, GL FLOAT, GL FALSE 0; 

(const GLvoid *)0); 
解 绑 


lBindBuffer (GL ARRAY BUFF 
/ 加 载 着 色 器 并 构建 OpenGL 程 序 

f(![self loadShaders]) 

Eee 七 ET 

glUseProgram (mProgram); 

glViewport (0, 0, self.frame.size.width, self.frame.size.height); 
glClearColoE (0s SE, OSE, O05E;, .0F)s 


上 aa 


可 


~ 


园 


R, 0); 
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} 
- (void) qoopenCLComputing 


/xx 做 OpenCL 初 始 化 */ 

cl Platform id oclPlatform = NULL; 

cl device id oclDevice = NULL; 

// 要 被 创建 的 OpenCL 上 下 文 对 象 

cl context context = NULL; 

cl command queue commandOoueue = NULL; 

cl program oclProgram = NULL; 

cl kernel kernel = NULL; 

// 要 被 创建 的 与 GL 共享 的 顶点 缓存 对 象 

cl mem memObjVertices = NULL; 

// 要 被 创建 的 与 GL 共 享 的 颜色 缓存 对 象 

cl mem memObjColors = NULL; 

#ifdef APPLE 

CGLContextob]j cgl] context = CGLGetCurrentContext (); 

CGLShareGroupobj sharegroup = CGLGetShareGroup (cgl context); 

gcl gl set sharegroup (sharegroup); 加 

#endif 
do 
{ 


// 获得 当前 OpenCL 平 台 

cl int status = ClLGetPlatformIDs (1， &oclPlatform, NULL); 
if (status != CL _ SUCCESS ) 

{ 


NSLog (@"OpenCL platform get failed!"); 
break; 


} 

// 获得 当前 GPU 设备 。 严 格 地 来 说 ， 

// 此 GPU 设备 也 应 该 是 OpenGL 所 使 用 的 设备 

status = clGetDeviceIDs (oclPlatform, CL _ DEVICE TYPE GPU, 1, 
&oclDevice, NULL); 

ifl(status != CL SUCCESS) 

{ 


NSLog (@"OpenCL GPU cannot be found!"); 
break; 


} 
// 设置 用 于 创建 OpenCL 上 下 文 的 属性 列表 
cl context properties properties[] = 


{ 
#ifdef WIN32 


#endif 


#ifdef linux_ 


#endif 


#ifdef APPLE 


#engdif 


CL GL CONTEXT KHR ， 
(cl context properties) wglGetCurrentContext (), 
CL WGL HDC KHR ， 


(cl context properties)wglGetCurrentDC ()， 


CL GL CONTEXT KHR ， 
(cl context properties) glXGetCurrentContext (), 
CL GLX DISPLAY KHR ， 
(cl context properties) glXGetCurrentDisplay(), 


CL CONTEXT PROPERTY USE CGL SHAREGROUP APPL 
(cl context properties) sharegroup, 


四 


~ 


0 


context = clCreateContext (properties, 1, &oclDevice, 


NULL, NULL, NULL); 
// 创建 命令 队列 
commandQueue = clCreateCommandQueue (context, oclDevice, 


0, NULL); 
// 编译 内 核 程序 
NSString *kernelPath = [[NSBundle mainBundle] 
pathForResource: 
@"compute" ofType:@"ocl"]; 
const char *aSource = [[NSString stringWithContentsOfFile: 


kernelPath encoding:NSUTF8StringEncoding error:nil] 
UTF8String]; 

size 七 kernelLength = strlen(aSource); 
oclProgram = clCreateProgramWithSource (context, 1, &aSource, 
kernelLength, NULL); 


:a 


if (oclProgram == NULL) 
{ 


NSLog (@"OpenCL program create failed!"); 
break; 


} 

// 构建 程序 

status = clBuildProgram(oclProgram, 1, &oclDevice, 
NULL, NULL, NULL); 

ifl(status != CL SUCCESS) 

{ 


NSLog (@"OpenCL kernel build failed!"); 
break; 


} 

// 创建 与 GL 顶点 缓存 对 象 共享 的 存储 器 对 象 

memObjVertices = clCreateFromGLBuffer (context, 
CL MEM WRITE ONLY, 
mVBOVertices, 
&status); 


// 创建 与 GL 颜 色 缓 存 对 象 共 享 的 存储 器 对 象 
memObjColors = clCreateFromGLBuffer (context, 
CL MEM WRITE ONLY, 
mVBOColors, &status); 


// 创建 内 核对 象 


kernel = clCreateKernel (oclProgram, "GenerateRoundVertices", 


NULL); 
// 设置 内 核 参 数 
status |= clSetKernelArg (kernel, 0, sizeof (memObjVertices), 
&memObjVertices); 
status |= clSetKernelArg (kernel, 1, sizeof (memObjColors), 
&memObjColors); 


if(status != CL SUCCESS) 
{ 


NSLog (@"Kernel parameters pass failed!"); 
break; 


} 

// 这 里 我 们 总 共 使 用 512 个 工作 项 

// 由 于 一 共 要 处 理 362 个 顶点 ,每 个 顶点 对 应 到 一 个 工作 项 ， 

// 而 362 向 上 对 应 的 能 满足 2 的 N 次 容 整 数 就 是 512 

size t global work size[1] = { 512 }; 

size t groupSize; 

clGetDeviceInfo (oclDevice, CL DEVICE MAX WORK GROUP SIZ 
sizeof (groupSize), &groupSize, NULL); 


加 


~ 


size 七 local work size[1] = { groupSize }; 
// 运行 内 核 程序 
status |= clEnqueueNDRangeKernel (commanadoueue， kernel, 1, 


NULL,global work size, 
local work size, 0, NULL, 
NULL); 
// 这 里 直接 用 clFinish 进 行 同步 ,确保 顶点 坐标 以 及 相应 的 颜色 值 全 都 设置 好 


clLEinish(commandqoueue) ， 
if (status != CL SUCCESS ) 


NSLog (@"OpenCL kernel run 


} 
} 
while (NO 
J 释放 OpencL 各 种 对 象 
if (memObjVertices != NULL) 
clReleaseMemObject (memObjVertices); 
if (memObjColors != NULL) 
clReleaseMemObject (memObjColors); 
(kernel != NULL) 
clReleaseKernel (kernel); 
if (oclProgram != NULL) 
ClReleaseProgram (oclProgram); 
(commandOQueue != NULL) 
clReleaseCommandOueue (commanaqOueue ) ， 
1IfE(context != NULL) 
clReleaseContext 


于 


i 


(context); 


} 
- (void)drawRect: (NSRect) dirtyRect 
{ 


} 


[self doOopenCLComputing]; 

glClear (GL COLOR BUFFER BIT); 
glDrawArrays (GL ， TRIANGLE _ FAN, 0, 362); 
glFilush(); 
[[self openGLContext] 


flushBuffer]; 


Qend 


rEOFE")s 


我 们 这 里 主要 关心 的 就 是 prepareOpenGL 方 法 以 及 doOpenCLComputing 方 法 。 


顶点 坐标 与 颜色 坐标 都 是 通 ; 


过 OpenCL 内 核 程序 进 


时 ，prepareOpenGL 方 法 会 先 被 调用 。 然 后 当 用 户 点 击 draw 按 钮 之 后 ,将 


井 行 设置 的 。 最 后 ， 在 OpenGL 端 使 用 扇形 绘制 模式 进 


这 个 程序 中 ， 我 们 要 绘制 一 个 圆 ， 并 且 其 
行 绘制 。 整 个 程序 在 执行 


会 调用 doOpenCLComputing 方 法 。 大 家 也 能 在 代 


码 中 观察 到 ， 虽 然 我 们 要 处 理 362 个 顶点 ， 但 是 实际 分 配 的 工作 项 总 数 是 512。 对 于 OpenCl 数 据 处 理 特性 而 言 ， 如 果 是 最 小 并 
行 粒度 个 数 (将 在 第 8 章节 描述 ) 的 倍数 ， 那 么 将 会 充分 发 挥 GPU 的 计算 性 能 。 
以 下 是 OpenGL 顶 点 着 色 器 代码 : 
// 在 OpenGL3.2 Core Profile 中 ,版 本 号 必须 显 式 地 给 出 
#version 150 core 
in vec4 inpos; 
in vec4 inColor; 
// flat shade model (默认 为 smooth) 
flat out vec4 myColor; 
/xx 模型 视图 变换 矩阵 * 
* 1 0 0 0 
0 1 0 0 
0 0 1 0 
x y z 1 
k 
* 
/** 正 交 投影 变换 矩阵 * 
* 2/ (r-1) 0 0 0 
0 2/ (t-b) 0 0 
0 0 -2/ (f-n) 0 
—(rtl)/(r-1) -(ttb)/(t-b) -(ftn)/(f-n) 1 
大 
4h 
void main() 
// glTranslate(0.0, 0.0, -1.0, 1.0) 
mat4 translateMatrix = mat4(1.0, 0.0, 0.0, 0.0, // column 0 
050). 1:0; 0507 0.0, // column 1 
0.0, 0.0, 1.0, -1.0, // column 2 
0.07 0Q.0 0.0, 10 // column 3 
); 
// lortho(=1.0, 130, =L0; .0; 1L.07. 3.0 
mat4 projectionMatrix = mat4(1.0, 0.0, 0.0, 0.0, // column 0 
0.0; 1.0; 0.0; 0.0; // column 1 
0.0; 0.307 =L.0;, = 2.0; // column 2 
0:0; O05:0; O00 工 .0 /7 Colim. 3 
); 
gl Position = inPos * (translateMatrix * projectionMatrix); 
myColor = inColor; 


} 下 面 是 OpenGL 片 段 着 色 器 代码 : 


// 在 OpenGL 3.2 Core Profile 中 ,版 本 号 必须 显 


式 地 给 


出 


version 150 core 

// flat shade model (默认 为 smooth) ， 

// 必须 与 Vertex shadqer 所 定义 的 in 变量 要 完全 匹配 
flat in vec4 myColor; 

out vec4 myOutput; 

void main() 


myOutput = myColor; 


下 面 是 OpenCL 内 核 程序 代码 : 


_kernel void GenerateRoundVertices( global float *pVertices, 
_global float *pColors) 
{ 
int index = get global id(0); 
float theta = radians ( (float) (index - 1)); 
// 设置 圆 的 半径 为 0.8 
float x = 0.8f * cos (theta) // ”设置 当前 顶点 的 x 坐标 
float y = 0.8f * sin (theta); // 设置 当前 顶点 的 y 坐 标 
// 第 0 个 工作 项 设置 圆 的 原点 坐标 (0， 0) 
if(index == 0) 
x= 0.0f; 
if(index == 0) 
y= 0.0f; 
pVertices[index 
pVertices[index 
pVertices[index 
pVertices[index 
float xr; g; b; 
if(index == 0) 


芝 


~ 


4 A A 
心 心 心心 


WNPO 
[el 

PO 

ey 


0.0f; 
0.0E， 
0.0f; 


9g 
b 


lse if(index <= 45) 


0.1£; 
0.9£f; 
0.1f; 


r 
9g 
b 


mh 


lse if(index <= 90) 


0 二 直 汪 
0..1f£;» 
0.9f£; 


区 
9g 
b 
else if(index < 180) 
0.9f£; 


0.9f£; 
0 .1£} 


EE 
g 
b 
else if(index < 270) 
0.9f£; 


0..1£; 
0.9f£; 


工 : 
9 
b 
else 
0.1£; 


0.9f£f; 
0.9f£f; 


Ee 
9 
b 


pColors [index 
pColors [index 
pColors [index 
pColors [index 
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各 位 读者 下 载 好 完整 工程 之 后 可 以 在 OS X 10.9 或 更 高 版 本 的 Mac 上 运行 查看 效果 。 当 然 ， 这 段 代 码 也 能 被 很 容易 地 移植 到 
Windows 或 Linux 系 统 上 。 


7.3 OpenCL 使 用 OpenGL 纹 理 数 据 


7.1 节 介绍 了 OpenCL 与 OpenGL 共 享 顶点 缓存 对 象 的 方法 。 本 节 ， 我 们 来 谈 谈 OpenGL 与 OpenCL 共 享 纹理 对 象 的 方法 。 我 
们 先 来 看 一 下 从 OpenGL 的 纹理 对 象 来 创建 OpenCL 的 图 像 存储 器 对 象 的 函数 接口 : 


cl mem clCreateFromGLIexture (cl context Context， 
cl mem flags flags, 
GLenum texture target, GLint miplevel, 
GLuint texture, 
Cl int *errcode: ret) 


这 个 函数 中 的 第 2 个 参数 flags 只 能 取 CL_ MEM_READ_ONLY、CL MEM_WRITE_ONLY 或 CL MEM_READ_WRITE 的 其 中 之 


第 3 个 参数 texture_target 表 示 使 用 的 是 哪 种 类 型 的 纹理 。 由 于 种 类 太 多 ， 大 家 可 以 看 Khronos 官 方 文档 。 我 们 一 般 使 用 
GL TEXTURE_2D， 表 示 一 个 二 维 纹 理 。 当 然 ， 这 个 参数 必须 与 设置 纹理 时 所 使 用 的 目标 纹理 的 类 型 一 致 。 也 就 是 我 们 在 调用 
glBindTexture 等 接口 时 所 使 用 的 目标 纹理 。 


第 4 个 参数 miplevel 指 明 纹理 的 细节 度 。0 表 示 最 大 细节 ， 即 原 图 像 本 身 。 


第 5 个 参数 texture 就 是 我 们 用 glGenTextures 所 生成 的 纹理 对 象 。 我 们 将 通过 这 个 纹理 来 创建 相应 的 图 像 类 型 的 OpenCL 存 
储 器 对 象 。 


如 果 创 建成 功 ， 那 么 此 函数 将 直接 返回 有 效 的 存储 器 对 象 。 如 果 创建 失败 ， 则 返回 空 ， 并 且 会 在 errcode_ret 参 数 所 指向 的 


变量 中 给 出 错误 码 。 


下 面 我 们 将 针对 OS X 系 统 举 一 个 实际 的 例子 来 看 看 如 何 从 OpenGL 纹 理 对 象 创建 OpenCL 图 像 存储 器 对 象 ， 然 后 在 OpenCL 
的 内 核 程序 中 对 图 像 进行 处 理 直 接 交 给 OpenGL 的 片段 着 色 器 所 使 用 的 。 在 以 下 代码 例子 中 ， 我 们 将 对 给 定 的 原始 纹理 图 像 转 为 
黑白 色 图 像 。 这 个 变换 过 程 就 是 在 OpenCL 的 内 核 程序 中 完成 的 。 


import "MyGLView.h" 

define GL DO NOT WARN IF MULTI GL VERSION HEADERS INCLUDED 
// 这 里 必须 注意 ! <g13.h> 头 文件 必须 被 包含 并 取代 <g1.h>， 

// 否则 VAO 接 口 会 调用 不 正常 ,从 而 无 法 正确 显示 图 形 ! 

import <OpenGL/g13.h> 

ifdef APPLE 
include <OpenCL/opencl.h> 
else 

include <CL/cl.h> 

endif 

Qinterface MyGLView () 


@private 
GLuint mpProgram; 
GLuint mVAO, mVBOVertices, mVBOTextureCoords; 
GLuint mTexName; 
GLint mSamplerLocation; 
int mImageWidth, mImageHeight; 
NSInteger mlag; 
} 
Qend 
Qimplementation MyGLView 
static GLuint CompileShader (GLenum type const char *filename) 


{ 


FILE *fp = fopen (filename, "“r"); 
if (fp == NULL) 
{ 


printf("File %s cannot be opened!", filename); 
return 0; 


} 
fseek (fp, 0, SEEK END); 
const size t length = ftell (fp)} 


fseek(fp，0，SE 


EK SET); 


GLchar *souceBuffer 
fread (souceBuffer, 
fclose (fp); 


malloc (length); 
1, length, fp); 


const GLcohar *source souceBuffer; 

GLuint shader = glCreateShader (type); 

glShaderSource (shader, 1, &source, (GLint []){ 
(int) lengtn }); 

glCompileShader (shader); 

free (souceBuffer); 

GLint logLength; 

glGetShaqeriv (shader, GL INFO LOG LENGTH, 

if (logLength > 0) 

| 


GLchar xl1og = malloc (logLength); 
glGetShaderIinfoLog (shader, logLength, 
printf ("Shader compile log:\n%ss\n", 10g); 
free (109); 

} 

GLint status; 

glGetShaderiv (shader, GL COMPILE STATUS, 

if(status == 0) 

{ 


glDeleteShader (shader); 
return 0; 
} 
return shader; 
} 
static bool LinkProgram (GLuint prog) 
{ 
glLinkProgram (prog); 
GLint logLength; 
glGetProgramiv (prog, GL INFO LOG LENGTH, 
if (logLength > 0) 
{ 


&l1og] 


GLchar xlog = (GLchar *)malloc (logLength); 


&logLengtnh); 


&logLength, 10g); 


&status); 


Length); 


glGetProgramIinfoLog (prog, logLength, &log 
printf ("Program link log:\nss\n", 10g); 
free (109g); 
} 
GLint status; 
glGetProgramiv (prog, GL LINK STATUS, 
if (status == 0) 
return false; 
return true; 
} 
static bool ValidateProgram (GLuint prog) 
{ 
GLint logLength, status; 
glValidateProgram (prog); 
glGetProgramiv (prog, GL INFO LOG LENGTH, 
if (logLength > 0) 
{ 


GLchar *log = (GLchar *)malloc (logLengtnh); 
glGetProgramIinfoLog (prog, logLength, 


free (109g); 
} 
glGetProgramiv (prog, GL VALIDATE STATUS, 
if (status == 0) 
return false; 
returr Truey 


&sta 


(BOOL) loadShaders 


// 创建 着 色 器 程序 对 象 
mProgram = glCreateProgram(); 

// 在 做 程序 连接 之 前 绑 定 顶点 着 色 器 中 属性 的 位 置 
glBindAttribLocation (mProgram, 0, "inPos"); 
glBindAttribLocation (mProgram, 1, "inTexCoord 
// 创建 并 编译 顶点 着 色 器 

NSString *vertShader 


Pathname 


GLuint vertShader = CompileShader( 

GL VERTEX SHADER, 
if (vertShader == 0) 
{ 


NSLog (@"Failed to compile vertex shader"); 


return FALSE; 


} 
// 创建 并 编译 片段 着 色 器 


&l1og] 


&1 og] 
printf ("Program validate log:\n%ss\n", lo0g); 


Length, 109g); 


&status); 


Length); 


Length, lo0g); 


了 


tus); 


0) 


[[NSBundle mainBundle] 
pathForResource:Q@"shader" 
ofType:@"vsh"]; 


了 


[vertShaderPathname UTF8String]); 


NSString *fragShaderPathname = [[NSBundle mainBundlel] 
pathForResource:Q@"shader" 
ofType:@"fsh"]; 

GLuint fragShader = CompileShaqer ( 

GL FRAGMENT SHADER, 


} 


{ 


} 


{ 


} 


[fragShaderPathname UTF8String]); 
if (fragShader == 0) 
{ 


SLog (@"Failed to compile fragment shader"); 
return FALSE; 


} 
// 将 顶点 着 色 器 添加 到 程序 中 
glAttachShader (mProgram, vertShader); 
// 将 片段 着 色 器 添加 到 程序 中 
glAttachShader (mProgram, fragShader); 
// 连接 程序 

if (!LinkProgram (mProgram)) 


{ 


NSLog (@"Failed to link program: %d", mpProgram); 
return FALSE; 


} 
// 获取 片段 着 色 器 中 采样 器 uniform 变 量 的 位 置 


mSamplerLocation = glGetUniformLocation (mProgram "texSampler"); 


// 这 里 顶点 着 色 器 对 象 以 及 片段 着 色 器 对 象 已 经 没 用 了 ,将 它们 释放 
if(vertShader != 0) 
glDeleteShader (vertShader); 
if (fragShader != 0) 
glDeleteShader (fragShader); 
// 校 验 程序 


return ValidateProgram (mProgram); 


(id) initWithFrame: (NSRect) frameRect 


self = [super initWithFrame:frameRect]; 
const NSOpenGLPixelFormatAttribute attrs[] = 
{ 
// 可 选项 ,表示 启用 双 缓 冲 

SOpenGLPEADoubleBuffer， 

// 必须 使 用 这 个 属性 以 指定 我 们 将 使 用 OpenGL Core Profile 
NSOpenGLPFAOpPenGLProfile, 

// 指定 使 用 OpenGL3.2 Core Profile 
SOpenGLProfileVersion3 2Core, 

// 这 里 使 用 多 重 采样 反 走样 处 理 

NSOpenGLPFAMuUultisample, 


// 采用 4 个 样本 对 应 一 个 像素 

SOpenGLPFASamples, (NSOpenGLPixelFormatAttribute)4, 
// end 

0 


}; 
NSOpenGLPixelFormat *pf = [[NSOpenGLPixelFormat alloc] 
initWithAttributes:attrs]; 


if (pf == nil) 
{ 


NSLog (@"No OpenGL pixel format"); 
return nil; 


} 
NSOPenGLContext *context = [[NSOPenGLContext alloc] 


self setPixelFormat:pf]; 
pf releasel]; 


context releasel]; 
return self; 


(void) dealloc 


NSLog (@"MyGLView deallocated!"); 
[super dealloc]; 


(void) destroyBuffers 


// 释放 程序 对 象 
If (mProgram != 0) 
glDeleteProgram (mProgram); 
// 释放 VAO 对 象 
if (mVAO != 0) 
glDeleteVertexArrays (1l, &mVAO); 
// 释放 顶点 与 纹理 顶点 VBO 
if (mVBOVertices != 0) 
glDeleteBuffers (1， é&mVBOVertices); 
if (mVBOTextureCoords != 0) 
glDeleteBuffers (1, &mVBOTextureCoords); 
// 清除 纹理 对 象 
if (mTexName != 0) 
glDeleteTextures (1, &mTexName); 
// ,清除 主 下 交 
[[self openGLContext] clearDrawablel]; 
[self clearGLContext]; 


(void) setTag: (NSInteger) tag 


NSOpenGLPFASampleBuffers, (NSOpenGLPixelFormatAttribute)1, 


initWithFormat:pf shareContext:nil]; 


self setOpenGLContext:context]; 


mlag = tag; 


(NSInteger) tag 


return mlag; 


(GLubyte *)getImageData: (CGSize *)plImageSize fromPathn : 


(NSString *)path 


NSUInteger width, height; 

NSURL *url = nil; 

CGImageSourceRef src; 

CGImageRref image; 

CGContextRef context = nil; 

CGColorSpaceRef colorSpace; 

url = [NSURL fileURLWithPath: path]; 

src = CGImageSourceCreateWithURL( (CFURLRef)url, NULL); 
iE (SEG) 


NSLog (@"No image"); 

return NULL; 
} 
image = CGImageSourceCreateImageAtIndex(src, 0, NULL); 
CEFRelease (src); 
width = CGImageGetWidth (image); 
height = CGImageGetHeight (image); 
GLubyte *imageData = (GLubyte *)malloc(width * height * 4); 
colorSpace = CGColorSpaceCreateDeviceRGB () ， 
context = CGBitmapContextCreate (imageData, width, height, 8, 

4 * width, colorSpace, 

kCGImageAlphaPremultipliedFirst | kCGBitmapByteOrder32Host); 
CGColorSpaceRelease (colorSpace); 
CGContextTranslateCTM (context, 0.0, heignt); 
CGContextScaleCTM (context, 1.0, -1.0); 
CGContextDrawImage (context, CGRectMake(0, 0, width, height), 

image); 

CGContextRelease (context); 
CGImageRelease (image); 
*pImageSize = CGSizeMake (width, height); 
return imageData; 


static GLfloat sVertexCoords[] = 


{ 


}; 


// 左上 顶点 

=0,8f; OQ.6f; O00f; Ls0£; 
// 左下 顶点 

=08f; =0 6 ‘Qa0fy TO0€; 
// 右上 顶点 

0.8f; 0.6f; 0.0E7 开 .0E7 
// 右 下 顶点 
O08f; =0.6£; ‘00£; 1.0£ 


static GLfloat sTextureCoords[] = 


{ 


// 左上 顶点 
O00£; 1.0£; 
// 在 下 顶点 
0.0f, 0.0f, 
// 右上 顶点 
二 0 和 7 1.0£7 
// 右 下 顶点 
1s0E7 0.0 


hh 7 


(void) prepareOpenGL 


self openGLContext] makeCurrentContext]; 

/ 用 垂直 刷新 率 来 同步 缓存 交换 

Lint swapInt = 1; 

self openGLContext] setValues:&swaplInt forParameter: 
NSOpenGLCPSwaplIntervall]; 

// 在 OpenGL3.2 Core Profile 中 ,必须 使 用 VAO (顶点 数组 对 象 ) 
glGenVertexArrays (1, &mVAO); 

glBindVertexArray (mVAO); 

// 设置 顶点 VBO 

glGenBuffers (1, é&mVBOVertices); 
glBingdBuffer (GL ARRAY BUFFER, mVBOVertices); 

// 将 顶点 坐标 数据 拷贝 到 mVBOVertices 对 象 的 缓存 中 
glBufferData (GL ARRAY BUFFER, sizeof (sVertexCoords), 
/ 

9 

9 

/ 

9 

9 

/ 


7 


sVertexCoords, GL STATIC DRAW); 
/ 将 顶点 VBO 绑 定 到 属性 0 
lEnableVertexAttribArray (0); 
lVertexAttribPointer (0, 4, GL FLOAT, GL FALSI 
(const GLvoid *)0); 


| 
~ 

OO 
~ 


/ 设置 纹理 坐标 VBO 
lGenBuffers (1l, é&mVBOTextureCoords); 
lBingdBuffer (GL ARRAY BUFFER, mVBOTextureCoords); 

/ 将 sTextureCoords 中 的 数据 拷贝 到 mVBOTextureCoords 对 象 的 缓存 中 


glBufferData (GL ARRAY BUFFER， sizeof (sTextureCoords) 
sTextureCoords, GL STATIC DRAW); 
// 将 纹理 坐标 VBO 绑 定 到 属性 1 
glEnableVertexAttribArray (1) 
glVertexAttribPointer(1, 2, GL FLOAT, GL FALSE, 0， 
(Cn GLvoiqd *)0); 

// 解 绑 
glBindBuffer (GL ARRAY BUFFER, 0); 
// 设置 纹理 
glPixelStorei (GL UNPACK ALIGNMENT, 8); 
glActiveTexture (GL TEXTUREO); 
glGenTextures (1, &mIlexName); 
glBindTexture (GL TEXTURE 2D, mTexName); 
glTexParameteri (GL TEXTURE 2D, GL TEXTURE WRAP S, GL REPEAT) 
glTexParameteri (GL TEXTURE 2D, GL TEXTURE WRAP T, GL REPEAT) 
glTexParameteri (GL TEXTURE 2D, GL TEXTURE MAG FILTER, 

GL LINEAR); 
glTexParameteri (GL TEXTURE 2D, GL TEXTURE MIN FILTER, 

GL LINEAR); 
CGSize imageSize = CGSizeZero; 
GLubyte *imageData = [self getImagqeData:&imageSize fromPathn : 

[NSBundle mainBundle] 


pathForResource:Q@"image" ofType:@"png"]]; 
mImageWiqdth = imageSize.wigdth; 


mImageHeight, 0, 
GL UNSIGNED INT 


mImageHeight = imageSize.height; 


glTexImage2D (GL TEXTURE 2D, 0, 


GL RGBA, mImageWidth, 


GL BCRA, 
8 8 8 8 REV, 


imageData); 
// 加 载 着 色 器 并 构建 OpenGL 程 序 
if(![self loadShaders]) 
returryy 
glUseProgram (mProgram); 


// 将 采样 器 对 象 映射 到 GL TEXTURE0, 使 得 它 对 0 号 纹理 单元 进 


glUniformli (mSamplerLocation, 
glViewport (0, 0, self.frame.s 


olClearColor (0 SE, OSE,. O05; 


} 
- (void) qoopenCLComputing 
// 做 OpenCL 初 始 化 
cl Platform id oclPlatform = 


0); 


行 采样 


~ ~ 


ize.width, self.frame.size.height); 


OF) 


NULL; 


cl device id oclDevice = NULL; 


一 


/ 要 被 创建 的 OpenCL 上 下 文 对 象 
cl context context = NULL; 
cl command queue commandQueue 
cl program oclProgram = NULL; 
cl kernel kernel = NULL; 
// 与 OpenGL 共 享 的 图 像 存储 器 对 象 ， 
cl mem imageMemSrc = NULL; 
// 与 OpenGL 共 享 的 图 像 存储 器 对 象 ， 
cl mem ee = NULL; 
/ 访问 图 像 对 象 的 采样 
cl sampler see = NULL; 
#ifdef APPLE 
CGLContextObj cgl] context = 


~ 


= NULL; 


用 于 输入 
用 于 输出 


CGLGetCurrentContext (); 


CGLShareGroupOb] sharegroup = CGLGetShareGroup (cgl] context); 


gcl gl set sharegroup (sharegr 
#endif 
do 
{ 
// 获得 当前 OpenCL 平 台 
cl int status = clGetPlat 
if (status != CL SUCCESS) 


NSLog ("OpenCL platfo 
break; 


} 


oup); 


formIDs(1, &oclPlatform, NULL); 


rm get failed!"); 


// 获得 当前 GPU 设备 。 严 格 地 来 说 ， 
// 此 GPU 设备 也 应 该 是 OpenGL 所 使 用 的 设备 
clPlatform, CL DEVICE TYP 


Status = clGetDevicelIDs (o 


&oclDevice, NULL); 


ifl(status != CL SUCCESS) 
{ 


NSLog (Q"OpenCL GPU cannot be found!"); 


break; 


} 
// 设置 用 于 创建 OpenCL 上 下 文 的 属性 列表 


cl context properties properties[] = 


{ 
#ifdef WIN32 


CL GL CONTEXT KHR 


(cl ， context ,prop rti Ss) wglGetCurrentContext (), 


CL WGL HDC KHR ， 


(cl context prop rties)wglGetCurrentDC ()， 


#engdif 
#ifdef linux 


E GPU, 


#engdif 
#ifdef 


#engdif 


_APPLE 


CL GL CONTEXT KHR ， 
(cl context properties) glXGetCurrentContext (), 
CL GLX DISPLAY KHR ， 
(cl context properties) glXGetCurrentDisplay(), 


CL CONTEXT PROPERTY USE CGL SHAREGROUP APPLE 
(cl context properties) sharegroup, 


~ 


0 


context = clCreateContext (properties, 1, &oclDevice, 
NULL, NULL, NULL); 


// 创建 命令 队列 
commandQueue = clCreateCommandOueue (context, oclDevice, 


0, NULL); 
// 编译 内 核 程序 
NSString *kernelPath = [[NSBundle mainBundle] 
pathForResource: 
Q"compute" ofType:@"ocl"]; 
const char *aSource = [[NSString stringWithContentsOfFile: 
kernelPath 
encoding:NSUTF8StringEncoding error:nil] UTF8String]; 
size 七 kernelLength = strlen(aSource); 


oclProgram = clCreateProgramWithSource (context, 1, &aSource, 
&kernelLength, NULL); 


if (oclProgram == NULL) 
{ 


NSLog (@"OpenCL program create failed!"); 
break; 


} 

// 构建 程序 

status = clBuildProgram(oclProgram, 1, &oclDevice, 
NULL, NULL, NULL); 

ifl(status != CL SUCCESS) 

{ 


size t len = 64 * 1024; 
char *pbuffer = (char *)malloc(64 * 1024) ， 


printf ("Error: Failed to build program executable!\n"); 


clGetProgramBuildInfo (oclProgram, oclDevice, 
CL PROGRAM BUILD LOG, 
len, buffer, &lLen) ， 

printf ("$s\n", buffer); 

free (buffer); 

break; 


} 
// 使 用 只 读 方式 来 创建 与 GL 纹理 对 象 共享 的 输入 存储 器 对 象 
imageMemSrc = clCreateFromGLTexture (context, 
CL MEM READ ONLY, 
GL TEXTURE 2D, 0, 
mTexName, NULL); 
// 使 用 只 写 方 式 来 创建 与 GL 纹理 对 象 共享 的 输出 存储 器 对 象 
imageMemDst = clCreateFromGLTexture (context, 
CL MEM WRITE ONLY, 
GL TEXTURE 2D, 0, 


mITexName, NU 


// 创建 采样 器 对 象 
sampler = clCreateSampler (context, CL FALSE, 
CL ADDRESS CLAMP TO EDGE, 
CL FILTER LINEAR, NULL); 


// 创建 内 核对 象 


kernel = clCreateKernel (oclProgram, "JImageProcessing", 


NULL); 
// 设置 内 核 参 数 
Status = clSetKernelArg (kernel, 0, sizeof (imageMemDst), 
&imageMemDst); 
status |= clSetKernelArg (kernel, 1, sizeof (imageMemSrc), 
&imageMemSrc); 
status |= clSetKernelArg (kernel, 2, sizeof (cl sampler), 
(void *) &sampler); 
ifl(status != CL SUCCESS) 
{ 


NSLog (@"Kernel parameters pass failed!"); 
break; 
} 
// 这 里 我 们 总 共 使 用 mImageWidth * mImageHeight 个 工作 项 ， 
// 每 个 工作 项 来 处 理 一 个 像素 
Size t global work size[] = { mImageWidth, mImageHeight }; 
// 然后 设置 一 个 工作 组 中 的 工作 项 个 数 
// 要 注意 ,XxX 维 度 与 y 维 度 两 个 数 相 乘 
// 不 能 大 于 工作 组 中 最 多 可 容纳 的 工作 项 的 个 数 
size t local work size[] = { mImageWidth / 64, 


mImageHeight / 64 }; 
// 运行 内 核 程序 


status |= clEnqueueNDRangeKernel (commanadoueue， kernel, 
2, NULL,global work size, 


local work size, 0, NULL, 
NULL); 区 
// 这 里 直接 用 clFinish 进 行 同步 ,确保 顶点 坐标 以 及 相应 的 颜色 值 全 都 设置 好 
clFinish (commandQueue); 
ifl(status != CL SUCCESS) 
{ 


NSLog (@"OpenCL kernel run error!"); 


} 

while (false); 

// 释放 OpenCL 各 种 对 象 

if (imageMemDst != NULL) 
clReleaseMemObject (imageMemDst); 

if (imageMemSrc != NULL) 

clReleaseMemObject (imageMemSrc); 

if(sampler != NULL) 

clReleaseSampler (sampler); 

if(kernel != NULL) 

clReleaseKernel (kernel); 

if(oclProgram != NULL) 

ClReleaseProgram (oclProgram); 

if (comandQueue != NULL) 

clReleaseCommandQueue (commandOueue); 

if (context != NULL) 

clReleaseContext (context); 


} 
- (void)drawRect: (NSRect) dirtyRect 
{ 


[self doOopenCLComputing]; 

glClear (GL COLOR BUFFER BIT); 
glDrawArrays (GL TRIANGLE STRIP, 0, 4); 
glFilush(); 
[[self openGLContext] flushBuffer]; 


} 
@end 


由 于 通过 OS X 的 CoreGraphics 接 口 所 生成 的 位 图 图 像 在 格式 上 是 BGRA 模 式 ， 所 以 在 调用 glTexlmage2D 时 ， 我 们 对 源 图 
像 格 式 设置 的 是 GL BGRA， 并 且 像 素颜 色 的 数据 类 型 是 GL UNSIGNED INT 8 8 8 8 REV。 而 目标 纹理 的 像素 颜色 格式 则 为 传 
统 的 RGBA 模 式 。 


我 们 在 创建 采样 器 对 象 时 使 用 的 是 线性 插值 模式 ， 并 且 纹 理 坐 标 不 做 规格 化 ， 这 样 有 利于 我 们 用 整 型 数据 来 作为 纹理 的 坐标 
值 ， 可 以 少 一 些 额 外 的 计算 。 另 外 ， 这 里 需要 注意 的 是 ， 在 OpenCL 中 ， 如 果 是 对 一 个 图 像 存储 器 对 象 进行 操作 ， 那 么 该 对 象 要 
么 是 只 读 的 ， 要 么 是 只 写 的 。 也 就 是 说 ,我 们 不 能 同时 对 一 个 图 像 存储 器 对 象 设置 为 可 读 可 写 。 或 者 说 ， 对 同一 个 图 像 存储 器 对 
象 同时 读 写 是 非法 的 。 所 以 ， 在 本 例 中 ,我 们 定义 了 两 个 图 像 存储 器 对 象 ， 这 两 个 对 象 都 创建 于 同一 个 纹理 对 象 。 一 个 作为 输 
入 ， 一 个 作为 输出 。 对 指向 同一 个 纹理 对 象 的 两 个 不 同 的 图 像 存储 器 对 象 进行 同时 读 写 是 没有 问题 的 。 


下 面 我 们 来 看 看 OpenCL 内 核 代 码 : 


// 在 OpenCL 2.0 之 前 ,作为 内 核 范 数 参数 的 图 像 对 象 只 能 用 

// _read only 或 write only 来 修饰 ,不 能 用 read write 进 行 修饰 

_kernel void ImageProcessing( write only image2d 七 imageDst, 
_read only image2d t imageSrc， 


sampler t sampler) 
{ 
int x = get global id(0); 
int y = get global id(1); 
float4 transVector = (float4) (0.299f, 0.587f, 0.114f, 0.0f); 
float4 color = read imagef (imageSrc, sampler, (int2) (x, y)); 
float alpha = color.w; 
float yComp = dot (color, transVector); 
color = (float4) (yComp, yComp, yComp, 1.0f); 
write imagef (imageDst, (int2) (x, y), color); 


这 段 代码 非常 简单 ， 就 是 将 读 入 的 原始 图 像 像素 转 为 其 相关 的 黑白 颜色 ， 然 后 写 到 相应 图 像 位 置 。 这 里 要 提 一 点 的 是 ,在 
OpenCL 2.0 之 前 ， 图 像 对 象 类 型 image2d t 前 面 只 能 用 _ write_only 或 _ read_only 来 显示 修饰 ， 并 且 我 们 显 式 地 加 上 此 限定 符 以 
至 于 在 调用 read imagef 或 write imagef 时 不 会 引发 歧义 。 因 为 在 调用 read imagef 或 write imagef 时 ，OpenCL 编 译 器 会 对 图 


像 对 象 类 型 进行 检查 。read imagef 的 图 像 对 象 只 能 是 只 读 类 型 或 读 写 类 型 ， write_ imagef 的 图 像 对 象 只 能 是 只 写 类 型 或 读 写 类 


型 。 而 在 OpenCL 2.0 中 可 以 使 用 read_ write 属性 以 非 采 样 形式 直接 对 image2d t 对 象 进行 访问 。 


下 面 给 出 OpenGL 顶 点 着 色 器 代码 ， 也 比较 简单 : 


// 在 OpenGL3.2 Core Profile 中 ,版 本 号 必须 显 式 地 给 出 
#version 150 core 

in vec4 inpos; 

in vec2 inTexCoords; 

out vec2 textureCoords; 

/xx 模型 视图 变换 矩阵 * 


大 
A 
/** 正 交 投影 变换 纸 阵 * 
* [ 2/(z-]) 0 0 0 
0 2/ (t-b) 0 0 
0 0 -2/ (f-n) 0 
(rt1)/(r-1) (tip)/(t-b) -(fin)/(f-n) 1 
大 
*/ ] 
void main() 
{ 
// glTranslate(0.0, 0.0, -1.0, 1.0) 
mat4 translateMatrix = mat4(1.0, 0.0, 0.0, 0.0, // column 0 
0.0) La0y -0.0; 0505 // column 1 
O00 00,10, .=1;.0; // column 2 
0.0, 0.0, 0.0, 1.0 // column 3 
); 
/7 glOrtho(=1:0; a0; =1.0; 1.0)- 10; 350) 
mat4 projectionMatrix = mat4(1.0, 0.0, 0.0, 0.0, // column 0 
0:0;, 1.0; 0.0, 0..0, // column 1 
0.0, 0.0, -1.0, - 2.0, // column 2 
0.07 Qu0r O00; Li0 // colimn 3 
); 


gl Position = inPos * (translateMatrix * projectionMatrix); 
textureCoords = inTexCoords; 


而 对 于 片段 着 色 器 程序 而 言 就 更 简单 了 。 只 要 直接 把 读 到 的 纹理 像素 数据 作为 输出 即 可 。 


// 在 OpenGL3.2 Core Profile 中 ,版 本 号 必须 显 式 地 给 出 
#version 150 core 

in vec2 textureCoords; 

out vec4 myOutput; 

uniform sampler2D texSampler; 

void main() 


{ 


myOutput = texture (texSampler, textureCoords); 


7.4 ”OpenCL 共 享 OpenGL 演 染 绥 存 


OpenCL 除 了 能 共享 OpenGL 的 顶点 缓存 对 象 (VBO) 与 纹理 对 象 之 外 ， 还 能 共享 OpenGL 的 演 染 缓存 对 象 (Render 
Buffer Object，RBO) 。 在 某 些 OpenGL 环 境 能 够 直接 将 与 演 染 缓存 所 绑 定 的 帧 缓 仔 显 示 到 屏幕 上 ， 而 在 其 他 环境 下 可 能 需 
采取 其 他 方式 来 显示 帧 缓存 中 的 数据 。 因 此 ， 对 于 前 者 ， 我 们 可 以 直接 采用 OpenCL 对 最 后 的 泻 染 缓存 做 最 终 的 后 处 理 ， 然 后 再 
输出 到 屏幕 上 。 而 对 于 后 者 情况 ， 我 们 可 以 将 泻 染 缓存 中 的 内 容 映射 为 一 个 纹理 ， 然 后 再 进行 绘制 到 能 够 显示 到 屏幕 上 的 上 下 文 
中 。 


下 面 介绍 从 OpenGL 的 泻 染 缓存 创建 CL 存储 器 对 象 的 方法 : 


cl mem clCreateFromGLRenderbuffer(cl context context, 


cl mem flags flags, 
GLuint renderpbuffer, 
cl int *errcode Tret) 


这 里 ，flags 只 能 是 CL_ MEM_READ ONLY、CL_MEM_WRITE ONLY 或 CL MEM_READ_WRITE 三 者 之 一 。 用 于 指明 所 创 
建 的 存储 器 是 只 读 、 只 写 还 是 可 读 、 可 写 的 。 不 过 由 于 我 们 这 里 所 创建 的 存储 器 对 象 用 于 图 像 对 象 ， 因 此 基本 只 能 用 只 读 或 只 写 
这 两 者 之 一 。 


参数 renderbuffer 就 是 在 OpenGL 上 下 文中 所 创建 的 泻 染 缓存 对 象 。 在 调用 此 函数 前 ， 泻 染 缓存 对 象 必须 已 经 创建 好 ， 并 绑 
定 到 指定 的 帧 缓存 上 。 


这 个 浮 数 所 返回 的 存储 器 对 象 就 是 一 个 图 像 类 型 的 存储 器 对 象 。 


下 面 这 个 demo 示 例 将 作为 一 个 综合 性 的 示例 给 出 。 这 个 示例 的 实现 是 先 利 用 我 们 第 一 个 示例 中 的 实现 来 绘制 一 个 彩色 的 
圆 ， 背 景 也 是 采用 灰色 。 然 后 ， 将 它 绘制 到 指定 的 泻 染 缓存 ， 再 将 该 泻 染 缓存 作为 一 个 OpenCL 内 核 程 序 的 输入 图 像 存 储 器 对 
象 。 随 即 ， I 最 后 ,我 们 在 OpenCL 中 将 整 帧 图 像 变 为 黑白 色 ， 然 后 
输出 到 纹理 ， 表 将 该 纹理 显示 到 显示 器 上 。 因 此 ， 这 个 示例 涵盖 了 所 有 CL 与 GL 共享 存储 器 对 象 的 使 用 方式 。 由 于 代码 比较 多 ， 
我 们 就 给 出 主机 端 新 增 的 ， 比 较 核 心 部 分 的 代码 。 由 于 GLSL 代 码 与 OpenCL 内 核 代码 与 前 两 个 例子 都 一 样 ， 因 此 不 再 重复 给 出 
了 。 完 整 的 项 目 代码 可 在 华章 官网 (www.hzbook.com) 针对 本 书 的 网 页 下 载 。 


- (void)prepareForDraw 


|lGenVertexArrays (1l, &mVAOForDraw); 

lBindVertexArray (mVAOForDraw); 

/ 设置 顶点 VBO 

[GenBuffers (1, &mVBOVertForDraw); 

lBindBuffer (GL ARRAY BUFFER, mVBOVertForDraw); 

/ 将 顶点 坐标 数据 拷贝 到 mVBOVertices 对 象 的 缓存 中 

lBufferData (GL ARRAY BUFFER, sizeof (sVertexCoords), 
sVertexCoords, GL STATIC DRAW); 

/ 将 顶点 VBO 绑 定 到 属性 0 

lEnableVertexAttribArray (0); 

LVertexAttribPointer (0, 4, GL FLOAT, GL FALSE, 0, 

(const GLvoid *)0); 


/ 设置 纹理 坐标 VBO 

LGenBuffers (1, &mVBROTextureCoords); 

lBingdBuffer (GL ARRAY BUFFER， mVBOTextureCoords); 

/ 将 sTextureCoords 中 的 数据 拷贝 到 mVBOTextureCoords 对 象 的 缓存 中 

lBufferData (GL ARRAY BUFFER, sizeof (sTextureCoords), 
sTextureCoords, GL STATIC DRAW); 

/ 将 纹理 坐标 VBO 绑 定 到 属性 1 

lEnableVertexAttribArray (1);，; 

LVertexAttribPointer (1, 2, GL FLOAT, GL FALSE, 0, 

(const GLvoiqd *)0); 
/ 解 绑 


lBindBuffer (GL ARRAY BUFFER, O) 
/ 设置 纹理 
LPixelStorei (GL ,UNPACK _ALT 
IActiveTexture (GL TEXTUREO 
) 
D 


GNMENT, 8); 


|GenTextures (1, &mTexName) ， 


epeeeexNeN ReN ee ReN Qa rae 


) 

lBindTexture (GL TEXTURE 2D, mTexName); 
| TexParameteri (GL TEXTURE 2D, GL TEXTURE WRAP S, GL REPEAT) ; 
LTexParameteri (GL TEXTURE 2D, GL TEXTURE WRAP T, GL REPEAT); 
| TexParameteri (GL TEXTURE 2D, GL TEXTURE MAG FILTER, 

GL LINEAR); 
| TexParameteri (GL TEXTURE 2D, GL TEXTURE MIN FILTER, 

GL LINEAR); 


这 里 只 分 配 纹 理 大 小 及 属性 ,而 不 对 它 进行 图 像 数 据 的 拷贝 
纹理 的 实际 图 像 数 据 将 在 OpenCIL 内 核 程序 中 给 出 
LTexImage2D (GL TEXTURE 2D, 0, GL RGBA， mRenderWidth, 
mRenderHeight, 0, GL BGRA, 

GL UNSIGNED INT 8 8 8 8 REV, NULL); 

f (mProgram != 0) 


wa 
se | 


A 


glDeleteProgram (mProgram); 
mProgram = 0; 


} 

// 加 载 着 色 器 并 构建 OpenGL 程 序 

if(![selLf loadShaders:@"draw"]) 
return; 

glUseProgram (mProgram); 


// 将 采样 器 对 象 映射 到 GL TEXTURE0, 使 得 它 对 0 号 纹理 单元 进行 采样 
glUniformli (mSamplerLocation, 0); 

glViewport (0, 0, mRenderWidth, mRenderHeight); 
glClearColor (1.0f, 1.0f, 1.0f, 1.0f); 


} 
- (void)generateTextureWithCLMemFromRBO 
{ 


/xx 做 OpenCL 初 始 化 */ 

cl Platform id oclPlatform = NULL; 

cl device id oclDevice = NULL; 

// 要 被 创建 的 OpenCL 上 下 文 对 象 

cl context context = NULL; 

cl command queue commandoueue = NULL; 

cl program oclProgram = NULL; 

cl kernel kernel = NULL; 

// 从 GL 的 RBO 创 建 用 于 输出 的 CL 存储 器 对 象 

cl mem dstMem = NULL; 

// 从 GL 的 RBO 创 建 用 于 输入 的 CL 存储 器 对 象 

cl mem srcMem = NULL; 

/ 访问 图 像 对 象 的 采样 器 

cl sampler sampler = NULL; 

#ifdef APPLE 
CGLContextob]j cgl] context = CGLGetCurrentContext (); 
CGLShareGroupOb] sharegroup = CGLGetShareGroup (cgl] context); 
gcl gl set sharegroup (sharegroup); 

#endif 
do 
{ 


Ts 


// 获得 当前 OpenCL 平 台 

cl int status = ClLGetPlatformIDs (1， &oclPlatform, NULL); 
if (status != CL SUCCESS) 

{ 


NSLog ("OpenCL platform get failed!"); 
break; 


} 

// 获得 当前 GPU 设 备 。 严 格 地 来 说 , 此 GPU 设备 也 应 该 是 OpenGL 所 使 用 的 设备 
status = clGetDeviceIDs (oclPlatform, CL DEVICE TYPE GPU, 1, 
&oclDevice, NULL); 

if(status != CL SUCCESS) 

{ 


NSLog (@"OpenCL GPU cannot be found!"); 
break; 


} 
// 设置 用 于 创建 OpenCL 上 下 文 的 属性 列表 
cl context properties properties[] = 


{ 
#ifdef WIN32 
CL GL CONTEXT KHR ， 
(cl context properties) wglGetCurrentContext (), 
CL WGL HDC KHR ， 


(cl context properties)wglGetCurrentDC (), 


#endif 

#ifdef linux 
CL GL CONTEXT KHR ， 

(cl context properties) glXGetCurrentContext (), 

CL GLX DISPLAY KHR ， 

(cl context properties) glxGetCurrentDisplay(), 


#engdif 

#ifdef APPLE 
CL CONTEXT PROPERTY USE CGL SHAREGROUP APPLE 
(cl context properties) sharegroup, 加 


~ 


#engif 
0 


// 创建 OpenCL 上 下 文 

context = clCreateContext (properties, 1, &oclDevice, 
NULL, NULL, NULL); 

// 创建 命令 队列 


commandQueue = clCreateCommandQOueue (context, oclDevice, 


0, NULL); 
// 编译 内 核 程序 
NSString *kernelPath = [[NSBundle mainBundle] 
pathForResource: 
Q"compute" ofType:@"ocl"]; 
const char *aSource = [[NSString stringWithContentsOfFile: 
kernelPath 
encoding:NSUTF8StringEncoding error:nil] UTF8String]; 
size t kernelLength = strlen(aSource); 
oclProgram = clCreateProgramWithSource (context, 1, &aSource, 


&kernelLength, NULL); 
if (oclProgram == NULL) 
{ 
NSLog (@"OpenCL program create failed!"); 
break; 


} 
// 构建 程序 


status = clBuildProgram(oclProgram, 1, &oclDevice, 


NULL, NULL, NULL); 
if(status != CL SUCCESS) 
{ 


NSLog (@"OpenCL kernel build failed!"); 
break; 


} 

// 创建 与 GL 纹理 对 象 共享 的 CL 图 像 存 储 器 对 象 ,用 于 纹理 输出 
dstMem = clCreaterFromGLTIexture (context, CL MEM WRITE ONLY, 
GL TEXTURE 2D, 0, mrexName, 
NULL); 加 
// 从 GL 泻 业 缓 存 创建 与 CL 共 享 的 存储 器 对 象 , 作为 输入 源 
srcMem = clCreateFromGLRenderbuffer (context, 
CL MEM READ ONLY, 
mRBO, NULL); 


// 创建 采样 器 对 象 
sampler = po ateSampler (context, 
CL ADDRE 
CL FILTE 


了 
S CLAMP TO EDGE, 
R LINEAR, NULL); 


// 创建 内 核对 象 


kernel = clCreateKernel (oclProgram, "ImageProcessing", 


NULL); 

// 设置 内 核 参 数 

Status = clSetKernelArg (kernel, 0, sizeof (dstMem), &dstMem); 

status |= clSetKernelArg (kernel, 1, sizeof (srcMem), 
&srcMem); 

status |= clSetKernelArg (kernel, 2, sizeof (cl sampler), 
(void *) &sampler); 

ifl(status != CL SUCCESS) 

{ 


NSLog (@"Kernel parameters pass failed!"); 
break; 


} 

// 这 里 我 们 总 共 使 用 mImageWidth * mImageHeight 个 工作 项 ， 

// 每 个 工作 项 来 处 理 一 个 像素 

Size t global work size[] = { mRenderWidth, mRenderHeight }; 
// 然后 设置 一 个 工作 组 中 的 工作 项 个 数 。 

// 要 注意 /X 维 度 与 y 维 度 两 个 数 相 乘 不 能 大 于 工作 组 中 

// 最 多 可 容纳 的 工作 项 的 个 数 


Size t local work size[] = { 16, 16 }; 
// 运行 内 核 程序 
status |= clEnqueueNDRangeKernel (commandQueue, kernel, 2, 


NULL, 
global work size, 
local work size, 0, 

NU 
点 坐 


L, NULL); 
// 这 里 直接 用 clFinish 进 行 同步 ,确保 顶点 坐标 以 及 相应 的 颜色 值 全 都 设置 好 
clFinish (commandQueue); 
ifl(status != CL SUCCESS) 


NSLog (@"OpenCL kernel run error!"); 


} 
} 
while (NO); 
// 释放 OpenCL 各 种 对 象 
if(dstMem != NULL) 
clReleaseMemObject (dstMem); 
if(srcMem != NULL) 
clReleaseMemObject (srcMem); 
if(sampler != NULL) 
clReleaseSampler (sampler); 
if(kernel != NULL) 
clReleaseKernel (kernel); 
if (oclProgram != NULL) 
CclReleaseProgram (oclProgram); 
if (commandOQueue != NULL) 
clReleaseCommandOueue (commandoueue); 
if(context != NULL) 
clReleaseContext (context); 


} 
- (void)drawRect: (NSRect) dirtyRect 


// 绑 定 设置 好 的 帧 缓存 对 象 与 泻 染 缓存 对 象 
glBindFramebuffer (GL FRAMEBUFFER, mFBO); 
glBindRenderbuffer (GL RENDERBUFFER, mRBO); 
// 准备 在 绑 定 的 泻 染 缓存 上 绘制 彩色 的 

[self qoopenCLComputing] 
glClear (GL COLOR BUFFER BIT); 
glDrawArrays (GL TRIANGLE ,FAN, 0, 362); 
glFinisnh(); 
// 准备 将 浑 染 缓存 中 的 图 像 变 为 纹理 ,然后 交 给 OpenCL 做 进一步 的 处 理 
[self prepareForDraw]; 
[self generateTextureWithCLMemFromRBO]; 
// 使 用 默认 帧 缓存 与 泻 染 缓存 ,准备 绘制 
glBindFramebuffer (GL FRAMEBUFFER, 0); 
glBindRenderbuffer (GL RENDERBUFFER, 0); 
glClear (GL COLOR BUFFER BIT); 
glDrawArrays (GL TRIANGLE ,STRIP, 0, 4); 


[[self openGLContext] flushBuffer]; 


7.5 从 一 个 OpenCL 和 存储 器 对 象 查 询 DpenGL 对 象 信息 


OpenCL 扩 展 API 提 供 了 查询 指定 OpenCL 存 储 器 对 象 是 从 哪个 OpenGL 对 象 被 创建 出 来 的 。 通 过 以 下 函数 进行 查询 : 


cl int clGetGLObjectInfo (cl mem memobj, 
cl gl object type *gl] object type, 
GLuint *gl] object name) 


* 参数 memobj 就 是 指定 的 所 要 查询 的 OpenCL 存 储 器 对 象 。 

“ 参数 gl_object_type 用 于 输出 memobj 所 附属 的 OpenGL 对 象 的 类 型 。 它 可 以 是 : 
. CL_GI, OBJECT_BUFFER， 表 示 普 通 的 OpenGL 缓存 对 象 类 型 (VBO) ; 
: CL_GL OBJECT _ TEXTURE2D， 表 示 2D 纹 理 对 象 ; 
: CL_GL OBJECT _ TEXTURE3D， 表 示 3D 纹 理 对 象 ; 
. CL_GL OBJECT TEXTURE2D_ARRAY， 表 示 2D 纹 理 数组 对 象 ; 
: CL_GL OBJECT _ TEXTURE1D， 表 示 1D 纹 理 对 象 ; 


. CL_GL OBJECT _ TEXTURE1D_ARRAY， 表 示 1D 纹 理 数 组 对 象 ; 


. CL_GI, OBJECT TEXTURE BUFFER， 表示 纹理 缓存 对 象 ; 


- CL_ GTL OBJECT RENDERBUFFER， 表 示 泻 染 缓 存 对 象 。 如 果 此 参数 为 空 ， 那 么 该 函数 被 调用 后 将 不 返回 OpenGL 对 


“ 参数 gl_object_name 用 于 返回 memobj 所 附属 的 OpenGL 对 象 句柄 。 


如 果 指 定 的 OpenCL 存 储 器 对 象 是 从 一 个 OpenGL 纹 理 对 象 类 型 所 创建 的 〈 即 使 用 的 是 cICreateFromGLTexture 这 个 函数 
API) ， 那 么 还 可 以 通过 以 下 函数 来 进一步 查询 纹理 信息 : 


cl int clGetGLTextureInfo (cl mem memobj, 
cl gl texture info param name, 
size t param Value size, 
void *param value, 
size t *param Value size ret) 


这 里 的 param_name 参 数 用 于 指明 当前 要 查询 哪 种 类 别 的 纹理 信息 。 这 个 参数 只 能 为 CL_ GL TEXTURE_TARGET 或 
CL GL MIPMAP_LEVEL。 如 果 这 个 参数 为 CL GL TEXTURE_TARGET， 那 么 参数 param_value 用 于 返回 纹理 目标 类 型 ， 可 能 返 
回 的 值 有 : GL TEXTURE 1D、GL TEXTURE 1D ARRAY、GL TEXTURE BUFFER、GL TEXTURE 2D、 
GL TEXTURE 2D ARRAY、GL TEXTURE 3D、 GL TEXTURE CUBE MAP POSITIVE X、 
GL TEXTURE CUBE MAP POSITIVE Y、 GL TEXTURE CUBE MAP POSITIVE Z、 
GL TEXTURE CUBE MAP NEGATIVE X、GL TEXTURE CUBE MAP NEGATIVE Y、 


GL TEXTURE CUBE MAP_NEGATIVE Z 或 GL TEXTURE RECTANGLE。 如 果 此 参数 为 CL GL MIPMAP_LEVEL， 那 么 参数 
param _value 将 用 于 返回 mipmap 的 细节 度 。 


. 参数 param_value_size 用 于 指定 参数 param_value 所 指向 的 有 效 存储 空间 区 域 大 小 (单位 为 字 节 ) 。 如 果 是 4， 那 么 就 指明 
patam_value 的 有 效 存储 空间 区 域 为 4 个 字 节 。 


. 参数 patam_value_size_tet 用 于 存放 实际 所 返回 的 参数 数据 尺寸 大 小 。 如 果 ， 参 数 param_value 指 向 了 一 个 8 字 节 的 空间 ， 而 实 
际 所 返回 的 参数 大 小 只 有 4 个 字 节 ， 那 么 patam_value_size_tet 所 指向 的 变量 里 将 会 是 4。 如 果 这 个 参数 为 空 ， 那 么 实际 参数 数据 的 
大 


小 将 不 会 被 返回 。 


7.6 ”访问 共享 对 象 的 OpenCL 与 OpenGl 之 间 的 同步 


为 了 要 确保 共享 对 象 的 数据 完整 性 ，OpenCL 扩 展 提 供 了 CL 与 GL 对 象 访问 的 同步 机 制 。 例 如 ， 当 我 们 要 从 一 个 OpenGL 纹 
理 对象 来 创建 一 个 OpenCL 图 像 类 型 的 存储 器 对 象 时 ， 倘 若 OpenGL 的 纹理 数据 没有 生成 完 ， 那 么 OpenCL 那 边 所 获得 的 图 像 数 
据 将 是 不 完整 的 。 我 们 尽管 可 以 通过 在 OpenGL 上 下 文中 调用 glFinish 这 种 同步 AP1， 但 是 效率 非常 低 ! 因为 此 API 与 clFinish() 语 
义 差不多 ， 要 将 当前 OpenGL 所 有 命令 都 执行 完 后 才能 让 当前 主机 端的 线程 继续 执行 下 去 ， 否 则 当前 线程 将 会 被 阻塞 。 这 会 导 
很 多 不 必要 的 计算 资源 的 浪费 。 所 以 ，OpenCL 扩 展 API 中 提供 了 clEnqueueAcquireGLObjects 这 个 函数 ， 以 获得 相应 的 一 个 
OpenCL 事 件 对 象 。 在 OpenCL 上 下 文中 可 以 直接 用 此 事件 对 象 来 做 相应 的 OpenCL 命 令 执 行 的 同步 就 能 更 高 效 地 利用 计算 资源 
了 。 下 面 介绍 一 下 这 个 函数 : 


cl int clEnqueueAcquireGLObjects (cl command queue command queue, 
J cl uint num objects. 
const cl mem *mem objects, 
cl uint num events in wait list, 
const cl event *event wait list, 
cl event *event) 


. 参数 hum_objects 指 定 了 参数 mem_objects 所 指向 的 一 维 数 组 中 包含 的 所 要 获得 的 从 GL 对 象 所 创建 出 的 OpenCL 存 储 器 对 象 


的 个 数 。 
“ 参数 mem_objects 就 指向 一 个 包含 所 需要 获得 的 OpenCL 存 储 器 对 象 的 数组 首 地 址 。 
后 三 个 参数 与 其 他 clEnqueue 系 API 的 一 样 。 


当 这 个 函数 调用 成 功 后 会 返回 CL_ SUCCESS， 如 果 是 其 他 值 说 明 调 用 失败 。 另 外 ， 我 们 往往 需要 最 后 一 个 参数 event 所 生成 
的 事件 对 象 来 追踪 mem_objects 中 的 所 有 OpenCL 存 储 器 对 象 的 数据 是 否 都 在 OpenGL 上 下 文中 生成 完毕 。 所 以 ， 我 们 需要 利用 
该 事件 对 象 对 其 他 排 入 当前 命令 队列 的 命令 进行 同步 。 


在 调用 了 clEnqueueAcquireGLObjects 之 后 ， 必 须 在 OpenGL 上 下 文中 再 次 使 用 OpenCL 存 储 器 对 象 所 绑 定 的 OpenGL 对 象 
之 前 调用 clEnqueueReleaseGLObjects 函 数 来 释放 所 获得 的 OpenCL 对 象 。 该 函数 原型 为 : 


cl int clEnqueueReleaseGLObjects (cl command queue command queue, 
cl uint num objects, 
全 加 const cl mem *mem objects, 
cl uint num events in wait list, 
const cl event *event wait list, 
cl event *event) 


该 国 数 参数 与 c[EnqueueAcquireGLObjects 的 一 模 一 样 。 我 们 在 调用 此 函数 时 ， 所 传递 的 num_objects 和 mem_objects 参 
数 也 要 同调 用 clEnqueueAcquireGLObjects 时 完全 一 致 。 


下 面 就 用 上 面 的 核心 代码 稍 作 修 改 来 给 出 使 用 clEnqueueAcquireGLObjects 和 clEnqueue-ReleaseGLObjects 的 例子 。 


- (void)generateTextureWithCLMemFromRBO 
{ 

/* 做 OpenCL 初 始 化 */ 
cl Platform id oclPlatform = NULL; 
cl device id oclDevice = NULL; 

/ 要 被 创建 的 OpenCL 上 下 文 对 象 
cl context context = NULL; 
cl command queue commandoueue = NULL; 

cl program oclProgram = NULL; 

cl kernel kernel = NULL; 

// 从 OPpenGL 的 RBO 创 建 用 于 输出 的 OpenCL 存 储 器 对 象 
cl mem dstMem = NULL; 

// 从 OpenGL 的 RBO 创 建 用 于 输入 的 OpenCL 存 储 器 对 象 
cl mem srcMem = NULL; 

/访问 图 像 对 象 的 采样 器 

cl sampler sampler = NULL; 

#ifdef APPIE 
CGLContextob]j cgl] context = CGLGetCurrentContext (); 
CGLShareGroupobj sharegroup = CGLGetShareGroup (cgl context); 

gcl gl set sharegroup (sharegroup); 加 
#endif 

do 

{ 


一 


一 


// 获得 当前 OpenCL 平 台 
cl int status = ClLGetPlatformIDs (1， &oclPlatform, NULL); 
if (status != CL SUCCESS) 


NSLog (Q"OpenCL platform get failed!"); 
break; 
站 
// 获得 当前 GPU 设备 。 严 格 地 来 说 ， 
// 此 GPU 设备 也 应 该 是 OpenGL 所 使 用 的 设备 
Status = clGetDeviceIDs (oclPlatform, CL DEVICE TYPE GPU, 1, 
&oclDevice, NULL); 加 
if (status != CL SUCCESS ) 
{ 


NSLog (@"OpenCL GPU cannot be found!"); 
break; 


} 

// 设置 用 于 创建 OpenCL 上 下 文 的 属性 列表 

cl context properties properties[] = 

{ 
#ifdef WIN32 


CL GL CONTEXT KHR ， 
(cl context properties) wglGetCurrentContext (), 
CL WGL HDC KHR ， 


(cl context properties)wglGetCurrentDC ()， 


#endif 
#ifdef linux 
加 CL GL CONTEXT KHR ， 
(cl context properties) glXGetCurrentContext (), 
CL GLX DISPLAY KHR ， 
(cl context properties) glXGetCurrentDisplay(), 


#engdif 

#ifdef APPLE 
加 CL CONTEXT PROPERTY USE CGL SHAREGROUP APPLE 
(cl context properties) sharegroup, 


~ 


#engdif 
0 


context = clCreateContext (properties, 1, &oclDevice, 
NULL, NULL, NULL); 
// 创建 命令 队列 


commandQueue = clCreateCommandOueue (context, oclDevice, 


0, NULL); 
// 编译 内 核 程序 
NSString *kernelPath = [[NSBundle mainBundle] 
pathForResource: 
@"compute" ofType:@"ocl"]; 
const char *aSource = [[NSString stringWithContentsOfFile: 


kernelPath 
encoding:NSUTF8StringEncoding error:nil] UTF8String]; 

size t kernelLength = strlen(aSource); 
oclProgram = clCreateProgramWithSource (context, 1, &aSource, 
&kernelLength, NULL); 


if (oclProgram == NULL) 


} 


} 


NSLog (@"OpenCL program create failed!"); 
break; 


} 

// 构建 程序 

status = clBuildProgram(oclProgram, 1, &oclDevice, 
NULL, NULL, NULL); 

if(status != CL SUCCESS) 

{ 


NSLog (@"OpenCL kernel build failed!"); 
break; 


} 

// 创建 与 GL 纹理 对 象 共享 的 CL 图 像 存储 器 对 象 ,用 于 纹理 输出 

dstMem = clCreateFromGLTexture (context, CL MEM WRITE ONLY, 
GL TEXTURE 2D, 0, mTexName, 
NULL); 

// 从 GL 泻 染 缓存 创建 与 CL 共享 的 存储 器 对 象 , 作 为 输入 源 

srcMem = clCreateFromGLRenderbuffer (context, 

CL MEM READ ONLY, 


mRBO, NULL) ; 


// 创建 采样 器 对 象 
sampler = clCreateSampler (context, CL FALSE, 
CL ADDRESS CLAMP TO EDGE, 
CL FILTER LINEAR, NULL); 


// 创建 内 核对 象 


kernel = clCreateKernel (oclProgram, "ImageProcessing", 


NULL); 

// 设置 内 核 参 数 

Status = clSetKernelArg (kernel, 0, sizeof (dstMem), &dstMem); 

status |= clSetKernelArg (kernel, 1, sizeof (srcMem), 
&srcMem); 

status |= clSetKernelArg (kernel, 2, sizeof (cl sampler), 
(void *) &sampler); 

ifl(status != CL SUCCESS) 

{ 


NSLog (@"Kernel parameters pass failed!"); 
break; 


} 

// 用 于 跟踪 获得 GL 对 象 的 事件 

cl event acquireEvt = NULL; 

// 获得 从 GL 对 象 所 创建 的 CL 对 象 , 等待 GL 绘 制 完成 
clEnqueueAcquireGLObjects (commandQueue, 2, (cl mem[]) 
{ 


dstMem, srcMem 
}, 0, NULL, &acquireEvt); 
// 这 里 我 们 总 共 使 用 mImageWidth * mImageHeight 个 工作 项 ， 
// 每 个 工作 项 来 处 理 一 个 像素 
size t global work size[] = { mRenderWidth, mRenderHeight }; 
// 然后 设置 一 个 工作 组 中 的 工作 项 个 数 。 
// 要 注意 ,X 维 度 与 y 维 度 两 个 数 相 乘 
// 不 能 大 于 工作 组 中 最 多 可 容纳 的 工作 项 的 个 数 


Size t local work size[] = { 16, 16 }; 
// 运行 内 核 程序 
status |= clEnqueueNDRangeKernel (commandQueue, kernel, 2, 


NULL, global work size, 

local work size, 1, &acquireEvt, NULL); 
// 这 里 直接 用 clFinish 进 行 同步 ,确保 顶点 坐标 以 及 相应 的 颜色 值 全 都 设置 好 
clFinish (commandOueue); 
// 调用 过 clEnqueueAcquireGLObjects 之 后 必须 调 用 此 函数 ， 
// 并 且 在 后 续 使 用 相关 OpenGL 对 象 之 前 完成 调用 
clEnqueueReleaseGLObjects (commandOueue, 2, (cl mem[]){ 
dstMem, srcMem 
}, 0, NULL, NULL); 
clReleaseEvent (acquireEvt); 
if(status != CL SUCCESS) 
{ 


} 


NSLog (@"OpenCL kernel run error!"); 


while (NO); 
// 释放 OpenCL 各 种 对 象 
if(dstMem != NULL) 


i 


mh 


clReleaseMemObject (dstMem); 


f (srcMem != NULL) 


clReleaseMemObject (srcMem); 


if (sampler != NULIL) 


clReleaseSampler (sampler); 


f (kernel != NULL) 


clReleaseKernel (kernel); 


if (oclProgram != NULL) 


ClReleaseProgram (oclProgram); 


(commandOQueue != NULL) 


clReleaseCommandOueue (commandoueue); 


if(context != NULL) 


clReleaseContext (context); 


(void) drawRect: (NSRect) dirtyRect 


// 绑 定 设置 好 的 帧 缓存 对 象 与 泻 染 缓存 对 象 
glBindFramebuffer (GL FRAMEBUFFER, mFBO); 
glBindRenderbuffer (GL RENDERBUFFER, mRBO); 
// 准备 在 绑 定 的 泻 染 缓存 上 绘制 彩色 的 

[self doOopenCLComputing]; 
glClear (GL COLOR BUFFER BIT); 
glDrawArrays (GL TRIANGLE FAN, 0, 362); 

// 这 里 将 使 用 acquire 接 口 进行 同步 ,而 不 直接 使 用 glFinish () 
// glFinish(); 
// 准备 将 泻 染 缓 存 中 的 图 像 变 为 纹理 ,然后 交 给 OpenCL 做 进一步 的 处 理 
[self prepareForDraw]; 

[self generateTextureWithCLMemFromRBO]; 

// 使 用 默认 帧 缓存 与 演 染 缓存 ,准备 绘制 

glBindFramebuffer (GL FRAMEBUFFER, 0); 
glBindRenderbuffer (GL RENDERBUFFER, 0); 

glClear (GL COLOR BUFFER BIT); 
glDrawArrays (GL TRIANGLE STRIP, 0, 4); 
glFilush(); 
[[self openGLContext] flushBuffer]; 


在 drawRect 方 法 中 ， 我 们 看 到 之 前 的 glFinish() 的 调用 被 注释 掉 了 ， 取 而 代 之 的 就 是 在 
generateTextureWithCLMemFromRBO 方 法 中 使 用 clEnqueueAcquireGLObjects 进 行 同步 。 通 过 该 函数 所 返回 的 acquireEvt 
事件 对 象 作为 clEnqueueNDRangeKernel 的 同步 事件 。 在 完成 dstMem 与 srcMem 对 象 的 数据 生成 之 前 ，OpenCL 内 核 命令 的 
执行 会 一 直 被 阻塞 。 在 内 核 命令 执行 完 之 后 ， 我 们 即 可 调用 clEnqueueReleaseGLObjects 来 释放 与 OpenGL 对 象 相关 联 的 
OpenCL 存 储 器 对 象 。 紧 接着 generateTextureWithCLMemFromRBO 方 法 下 面 ， 我 们 就 开始 做 OpenGL 端 的 图 形 绘制 。 这 
时 ，OpenCL 端 的 工作 全 部 完成 ， 且 OpenCL 上 下 文 及 各 种 存储 器 对 象 也 可 以 全 部 销毁 。 


7.7 本章 小 结 


本 章 介绍 了 如 何在 OpenCL 和 OpenGL 之 间 共 享 数据 ， 包 括 如 何 让 OpenCL 使 用 OpenGL 的 缓存 和 纹理 对 象 ， 也 包括 如 何 使 
用 OpenCL 共 享 OpenGL 的 演 染 缓存 。 由 于 OpenGL 和 OpenCL 共 享 存储 器 ， 那 么 它们 之 间 的 同步 就 变 得 重要 。 


第 8 章 OpenCL 到 主流 GPU 处 理 器 的 映射 


之 前 已 经 把 OpenCL 的 基本 概念 描述 过 了 。 本 章 将 列举 几 个 典型 的 GPU 来 为 大 家 介绍 一 些 GPU 架 构 与 OpenCL 模 型 的 天 系 ， 
以 及 OpenCL 如 何在 GPU 硬件 上 运行 。 并 且 针 对 本 章 所 列 出 的 GPU， 介 绍 其 相关 的 一 些 优化 技巧 。 


目前 大 多 数 桌面 和 移动 GPU 既 可 用 于 桌面 、 服 务 器 ， 又 可 用 于 手机 、 和 平板 电 脑 ， 承 担 的 任务 主要 是 图 形 演 染 和 计算 ， 本 章 
关注 于 GPU 的 计算 架构 ， 而 忽略 其 图 形 架构 。 


8.1 AMD 家 族 GPU 


AMD Radeon HD Graphics 从 之 前 的 R700 架 构 开 始 就 能 支持 OpenCL 1.0 了 。R700 到 Evergreen 架 构 全 都 采用 了 VLIW5 的 


执行 引擎 。 而 到 了 Radeon HD 6900 系 列 ， 则 采用 了 TeraScale3 架 构 的 VLIW4 的 执行 引擎 。 而 现在 从 GCN 架 构 起 ， 都 采用 了 标 
量 处 理 单 元 。 什 么 是 VLIW (Very Long Instruction Words) ， 什 么 又 是 标量 处 理 单 元 ”这 两 个 概念 将 会 在 8.1.1 节 和 8.1.2 节 进 
行 解释 。 


由 于 现在 VLIW 的 执行 架构 已 经 逐渐 被 AMD 所 淘汰 ， 而 NVIDIA 支 持 CUDA 的 统一 演 染 架构 的 GPU 从 一 开始 就 用 了 标量 执行 
方式 。 不 过 就 VLIW 方 式 的 独特 性 而 言 ， 这 里 还 是 可 以 给 大 家 分 享 一 下 。 而 下 面 就 以 Radeon HD Graphics 6900 系 的 VLIW4 引 警 
作为 例子 给 大 家 介绍 一 下 它 的 整体 结构 以 及 执行 方式 。 


8.2 NVIDIA CUDA 兼 容 的 GPU 


NVIDIA 在 2007 年 发 布 CUDA， 扩 大 在 GPU 上 做 通用 计算 的 领域 范围 ， 同 时 让 GPU 计算 这 个 概念 深入 人 心 。 下 面 我 们 将 以 
NVIDIA 当 前 比较 新 的 GPU 架构 Maxwell 以 及 最 近 的 GPU 型 号 一 -GM204 来 为 大 家 介绍 NVIDIA 的 GPU 架构 。 


GM204 是 第 一 款 完 整 实现 NVIDIA 第 10 代 架构 Maxwell| 的 GPU。 它 由 一 组 图 形 处 理 器 复 (Graphics Processing 
Cluster，GPC) 、 流 多 处 理 器 (Streaming multiprocessor， 简 称 SM ， 相 当 于 OpenCL 中 的 CU) 以 及 存储 器 控制 器 构成 。 而 
GM204 含 有 4 个 GPC，16 个 Maxwell SM (简称 SMM) 以 及 4 个 存储 器 控制 器 。GeForce GTX 980 使 用 了 完整 的 这 些 架构 组 
建 。 而 GeForce GTX 970 则 含有 13 个 SMM， 比 GeForce980 少 了 3 个 。 


在 GeForce GTX 980 中 ， 每 个 SMM 含 有 128 颗 CUDA 核 心 (在 OpenCL 中 对 应 于 PE) ，8 个 纹理 单元 ; 16 个 SMM 则 一 共有 具 
备 2048 颗 CUDA 核 心 和 128 个 纹理 单元 。 它 同时 含有 4 个 64 位 存储 器 控制 器 (总 共 256 位 ) 。 每 个 存储 器 控制 器 绑 有 512KB 的 L2 
Cache。 下 面 将 描述 Maxwell 架 构 的 核心 组 件 一 一 SMM。 


在 NVIDIA 的 GPGPU 中 ，SM 是 其 心脏 部 分 。 而 新 的 Maxwell 架 构 的 SMM 则 含有 4 个 warp (对 应 于 AMD GPGPU 的 
wavefront) 调度 器 ， 每 个 warp 调 度 器 能 够 在 每 个 时 钟 周期 分 发 两 条 指令 。 每 个 SMM 将 其 内 部 的 CUDA 核 心 划 分 为 4 组 ， 正 好 
每 组 对 应 一 个 warp 调 度 器 ， 每 组 含有 32 个 CUDA 核 心 ， 那 么 一 个 SMM 正 好 有 128 个 CUDA 核 心 。 每 组 划分 具有 其 自己 的 专用 资 
源 用 于 调度 分 发 指令 以 及 指令 缓存 。 


Maxwell 的 每 个 SMM 具 有 自己 专用 的 96KB 共 享 存储 器 (对 应 于 AMD GPU 中 的 LDS，AMD GCN 架 构 的 LDS 一 共 64KB) 。 


8.3 ARM Mali GPU 架构 


本 节 我 们 以 ARM Mali T764 GPU 为 例 ， 简 单 介 绍 ARM Mali GPU 的 硬件 架构 、 存 储 器 层次 ， 以 及 如 何 映射 到 OpenCL 编 程 
模型 上 执行 。 


对 于 读者 来 说 ， 理 解 硬 件 架构 和 操作 如 何 映射 到 OpenCL 编 程 模型 上 能 够 帮助 他 们 写 出 性 能 优秀 的 代码 ， 同 时 也 便于 理解 为 
什么 一 些 优化 方法 在 某 种 情况 下 有 效果 ， 在 另外 一 种 情况 下 没有 效果 。 比 如 ， 在 AMD GCN 架 构 上 使 用 局 部 存储 器 的 矩阵 乘法 效 
果 通 常 比 没有 使 用 局 部 存储 器 的 矩阵 乘法 好 ， 但 是 相同 的 代码 移植 到 ARM Mali 上 效果 则 不 好 。 


8.4 本章 小 结 


本 章 介 绍 了 AMD GPU、NVIDIA GPU 和 ARM Mali GPU 的 基本 架构 ， 以 及 OpenCL 程 序 的 各 个 部 分 如 何 映射 到 这 些 硬件 上 
执行 ， 通 常 本 章 ， 读 者 能 够 了 解 到 在 某 种 架构 上 优化 OpenCL 程 序 性 能 所 需要 的 基础 知识 。 而 在 后 面 的 章节 ， 我 们 将 详细 介绍 如 
何 利用 这 些 技术 来 优化 OpenCL 程 序 的 性 能 。 


第 9 章 ”OpenCL 计 算 二 维 卷 积 


计算 机 图 形 学 和 计算 机 视觉 中 使 用 卷 积 运算 来 提取 图 像 的 特征 ， 比 如 是 否 是 边缘 ， 像 素 变化 方向 等 。 二 维 卷 积 通常 只 涉及 一 
幅 图 像 和 一 个 滤波 器 ， 而 图 像 和 滤波 器 的 通道 数 通 常 为 1， 对 于 具有 多 个 通道 的 卷 积 运算 也 可 转化 成 一 维 卷 积 运算 。 


假设 原始 的 图 像 大 小 是 h*w， 卷 积 核 的 大 小 是 fff， 那么 进行 二 维 卷 积 运算 后 结果 图 像 的 大 小 是 (h-f+1) * (w-f+1) 。 结 
果 图 像 的 每 个 值 是 原始 图 像 对 应 像素 值 和 滤波 器 对 应 像素 值 的 乘积 的 和 ， 核 心计 算 如 代码 清单 9-1 所 示 。 


代码 清单 9-1 二 维 卷 积 核心 计算 代码 


// loop ts I 
for (int 0; <h-f+ 1; itt+) 


// loop output width 

for (int ] = 0; jj <w- f+ 1; j++) 
{ 
float ret = 0.0f; 

// loop kernel height 
for (int ii = 0; ii < f; ii++) 


// loop kernel width 
for (intjj = 0; jj< f; jj++) 
{ 


Et 二 和 说 [( 主 二 计生 这 半年 夺 了 J]* 二 Jte[ 站 六 下 夺 ， 了 了]》 


} 


} 
out[i * (w—-f+1) +j] = ret; 
} 
} 


本 章 展示 了 如 何在 X86 和 GPU 上 使 用 OpenCL 优 化 卷 积 运算 ， 这 些 优化 方法 在 某 些 程度 上 和 Stencil 类 似 ， 也 可 以 应 用 到 其 他 
的 类 似 模式 上 。 


由 于 目前 并 没有 很 好 的 工具 用 于 分 析 某 些 架 构 上 OpenCL 程 序 的 性 能 瓶颈 。 因 此 笔者 会 使 用 一 些 假设 来 分 析 ， 这 些 假 设 能 
帮助 我 们 确认 或 否认 潜在 的 性 能 瓶颈 。 


为 了 表述 简单 ， 本 章 所 用 的 滤波 器 大 小 为 ?x5， 输 入 图 像 大 小 为 (1024+4) x (1024+4) ， 故 输出 图 像 大 小 为 
1024x 1024。 


9.1 测试 平台 言 息 


由 于 OpenCt 程 序 能 够 在 不 同 GPU 三 商 的 硬件 平台 上 运行 ， 并 且 其 优化 方法 在 目前 大 多 数 GPU 平 台 上 也 是 通用 的 ， 因 此 笔 
者 会 在 不 同 的 硬件 平台 上 运行 本 章 的 示例 ， 以 展示 不 同 的 优化 方法 在 各 个 GPU 平台 上 大 致 通用 ， 但 是 同时 其 效果 会 有 所 差别 。 
本 章 所 使 用 的 NVIDIA GPU、AMD GPU、AMD APU 和 ARM Mali GPU 信息 如 表 9-1 所 示 。 


表 9-1 测试 平台 信息 


类 别 浮 点 峰 二 (GFLOPS) 
AMD A10 APU CPU 超频 时 5 
AMD A10 APU GPU Kaveri (GCN 1.1 ) 442 ( 超 502 ) 
AMD GCN GPU | 最 大 1004 
NVIDIA Kepler GPU 5115 (超频 时 5645 ) 


ARM Mali T764 GPU 六 频率 38.4 


笔者 使 用 的 AMD A107400P APU 集 成 了 两 个 模块 共 4 个 整数 核心 、 两 个 浮 点 核心 的 X86 CPU， 其 主 频 为 2.5GHz， 可 超频 到 
3.4CHz， 故 其 理论 单 精度 浮 点 峰值 计算 能 力 为 40CFLOPS (超频 时 最 高 可 达 54 GFLOPS) ; 其 集成 等 效 频率 为 1.866GHz 的 双 
通道 内 存 模块 ， 其 理论 内 人 存 带 宽 为 29.856 GB/s。 


AMD A107400P APU 集 成 了 一 个 Kaveri GPU ， 其 架构 为 GCN 1.1， 该 GPU 具有 6 个 CU， 总 共 384 个 处 理 单元 ， 处 理 单元 的 
频率 为 576MHz (可 超频 到 654MHz) ， 故 其 理论 单 精度 浮 点 峰值 计算 性 能 为 442GFLOPS (超频 最 高 可 达 502GFLOPS) 。 


AMD R9 M280X GPU 具有 12 个 CU， 共 768 个 处 理 单元 ， 其 架构 为 GCN 1.2， 处 理 器 单元 的 最 大 频率 为 654GHz， 故 其 最 大 
单 精 度 浮 点 峰值 性 能 为 1004GFLOPS; 其 使 用 128 位 显存 总 线 ， 等 效 显存 频率 为 5.5GHz， 故 其 显存 的 理论 峰值 带宽 为 88GB/s。 


NVIDIA Titan Black GPU 具有 2880 个 处 理 器 单元 ， 每 个 CU 中 具有 192 个 处 理 单元 ， 总 共有 15 个 CU， 默 认 频 率 为 
888MHz， 可 超频 到 980MHz， 故 其 单 精度 浮 点 峰值 计算 性 能 为 5.115TFLOPS， 超 频 时 单 精度 浮 点 峰值 计算 性 能 最 高 可 达 
5.645TFLOPS; 其 GDDR5 显 存 位 宽 384 位 ， 显 存 等 效 频率 为 7GHz， 其 显存 的 理论 峰值 带宽 为 336GB/s。 


ARM Mali T764 具 有 16 个 泻 染 核心 ， 每 个 核心 具有 4 个 计算 单元 、 一 个 本 地 存储 单元 和 一 个 纹理 单元 。 每 个 计算 单元 是 一 个 
128 位 的 乘 加 单元 ， 故 在 主 频 为 0.6GHz 的 前 提 下 ， 其 计算 单 精度 浮 点 峰值 为 207GFLOPS， 实 际 性 能 比 这 要 高 一 点 ， 因 为 除 此 之 
外 还 有 其 他 计算 单元 。 笔 者 使 用 的 RK3288 开 发 板 所 带 的 T764 GPU 只 有 4 个 演 染 核心 ， 故 其 浮 点 峰值 计算 性 能 为 38.4 GFLOPS。 
从 架构 上 来 说 ，T764 更 类 似 于 VLIW (关于 VLIW 的 具体 情况 ， 请 参考 笔者 所 著 的 《并 行 算法 设计 与 性 能 优化 》[]) 。Mali T764 
之 前 的 T400 是 分 离 架构 ( 演 染 的 各 个 步骤 由 不 同 的 硬件 处 理 ) ， 而 T764 是 统一 泻 染 架 构 ( 泻 染 的 各 个 步骤 由 同一 硬件 处 理 ) 。 
采用 双 通 道内 存 ， 每 个 内 存 通道 带宽 为 64 位 ， 采 用 的 内 存 LPDDR 等 效 频率 为 1.8GHz， 故 内 存 带宽 为 28.8GB/s。Mali T764 GPU 
没有 独立 的 常量 存储 器 缓存 ， 也 没有 专用 的 局 部 存储 器 硬件 。 


四 己 由 机 械 工 业 出 版 社 华 章 公司 出 版 ， 书 号 978-7-111-50102-2。 


9.2 AMD X86 CPU 串 行 实现 


AMD 压 路 机 CPU 每 个 模块 中 的 两 个 核心 共享 浮 点 运算 单元 ， 这 种 设计 降低 了 平均 单个 核心 的 浮 点 运算 能 力 ， 但 是 对 于 每 个 
模块 上 只 运行 一 个 线程 的 应 用 来 说 ， 其 性 能 可 能 不 受 影响 。 


AMD 压 路 机 支持 AVX、FMA 等 X86 SIMD 指 令 集 ， 本 节 就 展示 如 何在 AMD CPU 上 使 用 常见 的 循环 展开 、FMA/AVX 指 令 
等 技术 优化 代码 性 能 。 


9.3 简单 OpenCL 实 现 


使 用 OpenCL 进 行 并 行 计 算 的 首要 步骤 是 分 析 算法 的 并 行 性 ， 然 后 将 算法 映射 到 OpenCL 的 执行 模型 上 。 


对 于 二 维 卷 积 运算 来 说 ， 每 个 输出 点 的 计算 都 是 独立 的 ， 和 其 他 输出 点 的 计算 并 没有 依赖 关系 ， 通 常 这 个 结果 由 依赖 分 析 给 
出 。 关 于 如 何 进行 依赖 分 析 ， 请 参考 刘 文 志 的 著作 《并 行 算法 设计 与 性 能 优化 》 中 依赖 分 析 章 节 。 


为 了 增加 工作 项 内 的 并 行 度 ， 渡 波 器 的 尺寸 都 是 在 编译 内 核 时 指定 ， 即 编译 内 核 时 的 编译 选项 中 包含 “-DfilterSize=xx”。 


分 析 到 输出 点 计算 没有 依赖 ， 那 么 可 以 将 OpenCL 的 工作 项 映射 到 输出 点 上 ， 即 每 个 OpenCL 工 作 项 计算 一 个 输出 点 ， 如 代 
码 清单 9-6 所 示 。 


代码 清单 9-6 OpenCL 初 次 实现 代码 


1 kernel void convolutionNaive (intimageOutSizeXx, int 
imageOutSizeyY, 

global T* imagelIn, 

const global T* filter, 

global T* imageOut){ 


和 2 int y = get global id(1); 
3 int x = get global id(0); 
4 intimageInSizeXx = imageOutSizeXx+filterSize-1; 
5 
6 if(y <imageOutSizeY) 
7 if(x <imageOutSizeX) { 
8 T sum = (IT) 0; 
9 #pragma unroll 
10 for(intfy = 0; fy<filterSize; fy+ +){ 
#pragma unroll 
11 for(intfx = 0; fx<filterSize; fx++){ 
12 T filterIitem = filter[fx + fy*filterSizel]; 
43 T imageItem = imageIn[x+fx + 
(fyty) *imageInSizeXx]; 
14 Sum += filterIitem*imageItem; 
15 } 
16 } 
下 了 imageOut [x+y*imageOutSizeX] = sum; 
18 } 
19 } 
20 1} 


代码 2、3 行 计算 工作 项 的 全 局 索引 ，x 表 示 列 索引 ，y 表 示 行 索引 。 第 4 行 计算 输入 图 像 的 行 长 ， 第 10 行 到 第 16 行 计算 当前 工 
作 项 要 求 得 的 值 ， 第 18 行 保存 结果 。 


整体 而 言 ， 此 算法 简单 直接 。 在 滤波 器 大 小 为 5x 5 的 情况 下 ， 对 于 每 个 工作 项 来 说 ， 其 需要 读 取 50 个 数据 ， 计 算 25 次 乘 
加 ， 写 入 一 次 ， 故 其 计算 访 存 比 大 约 为 2 : 1， 由 此 可 知 ， 性 能 泪 颈 更 可 能 偏向 访 存 密 集 型 。 


为 了 方便 指导 编译 器 优化 ， 笔 者 使 用 了 #pragma unroll 伪 指令 展开 了 遍历 滤波 器 尺寸 的 循环 ， 这 种 循环 展开 能 够 更 好 地 发 
挥 硬件 加 载 数据 的 性 能 。 


(1) AMD GPU 


在 AMD GCN GPU 上 ,每 个 工作 组 最 多 允许 256 个 工作 项 ， 故 使 用 16x16 的 工作 组 。 对 AMD GCN GPU 而 言 ， 全 局 人 存储 器 
访问 以 16 个 工作 项 为 单位 ， 故 使 用 16x 16 的 工作 组 能 够 满足 合并 访问 的 要 求 。 


在 M280X GPU 上 ， 在 输出 图 像 大 小 为 1024x 1024， 滤 波 器 大 小 为 5x5 的 情况 下 ， 计 算 时 间 为 0.552ms， 计 算 性 能 大 


90.6GFLOPS， 相 比 峰 值 计算 性 能 ， 比 例 很 低 。 如 果 假 设 所 有 数据 都 从 缓存 读 取 ， 那 么 大 致 计算 得 到 的 带宽 是 376.8GB/s， 这 和 
二 级 缓存 带宽 接近 。 通 过 AM DCodeXL 分 析 发 现 : 计算 单元 在 20% 的 时 间 处 于 忙碌 状态 ， 而 全 局 存储 器 单元 在 95% 的 时 间 处 于 
忙碌 状态 ， 因 此 ， 此 代码 在 AMD M280X GPU 上 属于 全 局 存储 器 密集 型 。 


在 A10 APU 集 成 的 GPU 上 ， 在 输出 图 像 大 小 为 1024x 1024， 滤 波 器 大 小 为 5x 5 的 情况 下 ， 计 算 时 间 为 1.618ms， 计 算 性 能 
为 30.9 GFLOPS， 相 比 峰 值 计算 性 能 ， 比 例 很 低 。 如 果 假设 所 有 数据 都 从 存储 器 读 取 ， 那 么 大 致 计算 得 到 的 带宽 是 128.6GB/s。 
通过 AMD CodeXL 分 析 发 现 : 计算 单元 在 12% 的 时 间 处 于 忙碌 状态 ， 而 全 局 存储 器 单元 在 98% 的 时 间 处 于 忙碌 状态 ， 因 此 ， 此 
代码 在 AMD A107400P APU 集 成 GPU 上 属于 全 局 存储 器 密集 型 。 


(2) RK3288 Mali T764 GPU 


在 Mali T764 GPU 上 ， 每 个 工作 组 最 多 允许 256 个 工作 项 ， 故 使 用 16x16 大 小 的 工作 组 。 在 输出 图 像 大 小 为 1024x 1024， 滤 
波 器 大 小 为 5x 5 的 情况 下 ， 计 算 时 间 为 33ms。 


(3) NVIDIA GPU 


在 NVIDIA Titan Black GPU 上 ， 由 于 NVIDIA GPU 的 全 局 存储 器 (显存 ) 的 缓存 线 长 度 为 128 字 节 ， 如 果 使 用 16x16 的 工 
作 组 ， 工 作 组 加 载 的 缓存 不 能 被 一 个 warp 完 全 使 用 ， 存 在 浪费 的 可 能 性 ， 而 在 NVIDIA 平 台 上 ， 最 大 工作 组 的 大 小 是 1024 工 作 
项 ， 故 笔者 使 用 32x16 的 工作 组 。 


在 输出 图 像 大 小 为 1024x 1024， 滤 波 器 大 小 为 5x5 的 情况 下 ， 在 NVIDIA Titan Black GPU 上 此 算法 的 运行 时 间 为 
1.264ms。 计 算 可 得 此 算法 的 计算 性 能 大 约 是 40 GFLOPS， 这 远 小 于 硬件 的 峰值 性 能 。 如 果 假 设 所 有 数据 都 从 全 局 存储 器 读 
取 ， 那 么 大 致 计算 得 到 的 带宽 是 164.6GB/s， 这 相 比 Titan Black 显 存 带 宽 的 实际 测试 值 ， 差 别 比 较 小 ， 但 是 相 比 二 级 缓存 的 带 
宽 ， 此 值 比较 小 。 


9.4 ”使 用 常量 存储 器 优化 


无 论 是 在 NVIDIA GPU 上 ， 还 是 在 AMD GCN GPU 上 ， 代 和 码 清单 9-6 的 性 能 都 偏向 于 限制 在 显存 读 写 ， 因 此 优化 的 关键 在 于 
如 何 减少 全 局 存储 器 读 写 或 更 好 地 发 挥 全 局 人 存储 器 带宽 。 


由 于 在 AMD GPU 上 ， 分 析 得 到 的 带宽 已 经 接近 二 级 缓存 带宽 ; 在 NVIDIA GPU 上 ， 估 算 带 宽 已 经 非常 接近 全 局 的 实测 带 
宽 ， 故 笔者 关注 于 如 何 减 少 全 局 存储 器 访问 。 


在 NVIDIA GPU 和 AMD GCN GPU 上 ， 每 个 CU 都 有 一 个 独立 的 、 只 读 的 存储 器 ， 映 射 到 OpenCL 中 的 常量 存储 器 。 如 果 一 
个 访 存单 元 (在 NVIDIA GPU 上 指 warp， 在 AMD GPU 上 指 wavefront) 中 的 所 有 工作 项 都 访问 常量 存储 器 的 同一 地 址 时 ， 其 
性 能 非常 高 。 

对 于 代码 清单 9-6 算 法 来 说 ， 每 个 工作 项 都 需要 访问 相同 的 滤波 器 元 素 ， 故 滤波 器 数据 非常 适合 放 到 常量 存储 器 中 。 使 用 常 
量 存 储 器 优化 的 版 本 如 代码 清单 9-7 所 示 。 


代码 清单 9-7 使 用 常量 存储 器 优化 


1 kernel void convolutionConstant (intimageOutSizex, 
intimageOutSsizeyY, 

globalconst T* imageIny 

constant T. & filter[t32*32]; 


global T* imageOut) { 


2 int y = get global id(1); 
3 int x = get global id(0); 
4 intimageInSizeX = imageOutSizeX+filterSize- 1; 
5 
6 if(y <imageOutSizeY) 
7 if(x <imageOutSizex){ 
8 T sum = (T) 0 
9 #pragma unroll 
10 for (intfy = 0; fy<filterSize; fy ++){ 
11 #pragma unroll 
12 for(intfx = 0; fx<filterSize; fx++){ 
13 T filterItem = c filter[fx + fy*filterSizel]; 
14 T imageItem = imageIn[x+fx + 
(fyty) *imageInSizex]; 
15 sum += filterIitem*imageItem; 
16 } 
17 
18 
19 imageOut [x+y*imageOutSizeX] = sum; 
20 } 
21. } 
22 3} 


在 OpenCL 中 ， 常 量 存 储 器 需要 使 用 constant 修 饰 符 ， 并 且 其 大 小 最 好 固定 ， 因 此 笔者 固定 其 大 小 为 32x32， 其 实在 AMD 
GPU 和 NVIDIA GPU 上 ， 其 最 大 可 声明 的 常量 存储 器 大 小 为 64KB， 故 实际 上 大 小 可 以 指定 更 大 的 常量 存储 器 。 


对 于 每 个 工作 项 来 说 ， 访 问 c_filter 时 的 索引 都 是 一 样 的 ， 因 此 其 性 能 应 当 非 常 高 。 
(1) AMD GPU 


在 输出 图 像 大 小 为 1024x 1024， 滤 波 器 大 小 为 5x 5 的 情况 下 ， 在 M280X GPU 上 ， 计 算 时 间 为 0.436ms， 故 计算 性 能 大 
114.8 GFLOPS， 这 大 约 是 峰值 计算 性 能 的 11%， 因 此 有 很 大 的 优化 空间 。AMD CodeXL 结 果 表 明 : 计算 单元 13% 的 时 间 在 忙 
碌 ， 全 局 存储 器 单元 95% 的 时 间 在 忙碌 ， 这 表明 此 算法 的 性 能 依旧 限定 在 了 全 局 存储 器 的 访问 上 。 


在 输出 图 像 大 小 为 1024x 1024， 滤 波 器 大 小 为 5x 5 的 情况 下 ， 在 A10 APU 集 成 的 GPU 上 ， 时 间 为 1.471ms， 计 算 性 能 为 34 
GFLOPS， 这 大 约 是 峰值 计算 性 能 的 149%6， 因 此 存在 很 大 的 优化 空间 。 通 过 AMD CodeXL 工 具 测试 发 现 : 计算 单元 9% 的 时 间 在 
忙碌 ， 存 储 器 单元 98% 的 时 间 在 忙碌 。 


数据 分 析 表 明 : 使 用 常量 存储 器 的 优化 在 AMD GPU 上 对 性 能 提升 不 大 ， 这 可 能 是 因为 AMD GPU 上 并 没有 为 常量 存储 器 使 
用 独立 的 缓存 或 读 取 单元 。 从 CodeXL 的 结果 可 看 出 : 进一步 的 优化 在 于 如 何 减 少 对 存储 器 的 访问 。 


(2) NVIDIA GPU 


在 输出 图 像 大 小 为 1024x 1024， 滤 波 器 大 小 为 5x 5 的 情况 下 ， 在 NVIDIA Titan Black GPU 上 此 算法 的 运行 时 间 为 
0.334ms。 计 算 可 得 此 算法 的 计算 性 能 大 约 是 150 GFLOPS， 这 远 小 于 硬件 的 峰值 性 能 。 如 果 假 设 所 有 输入 数据 都 从 全 局 存储 器 
读 取 ， 那 么 大 致 计算 得 到 的 带宽 是 310GB/s， 这 已 经 比较 接近 Titan Black 二 级 缓存 带宽 的 实际 测试 值 。 


数据 分 析 表 明 : 使 用 常量 人 存储 器 的 优化 已 经 成 功 地 将 瓶颈 由 全 局 存储 器 转变 到 二 级 缓存 ， 进 一 步 的 优化 在 于 如 何 减少 对 缓存 
的 访问 。 


(3) RK3288 Mali T764 GPU 
由 于 ARM Mali GPU 并 没有 独立 的 常量 存储 器 缓存 ， 因 此 使 用 常量 存储 器 估计 不 会 有 什么 好 处 。 


在 输出 图 像 大 小 为 1024x 1024， 滤 波 器 大 小 为 5x 5 的 情况 下 ， 在 RK3228 开 发 板 自 带 的 Mali T764 GPU 上 ， 算 法 的 运行 时 间 
为 34ms。 相 比 之 前 的 版 本 ， 性 能 有 一 点 下 降 。 


9.5 ”使 用 局 部 存储 器 优化 


在 使 用 常量 存储 器 优化 之 后 ， 还 有 优化 机 会 的 就 是 输入 图 像 了 ， 对 于 输入 图 像 的 点 来 说 ， 每 个 点 都 大 约 重 用 了 25 次 ， 而 代 
码 清单 9-7 并 没有 显 式 利用 这 种 数据 重用 (实际 上 缓存 层次 ， 如 二 级 缓存 和 一 级 缓存 对 输入 存在 重用 ) 。 


在 AMD GPU 和 NVIDIA GPU 上 ,每 个 CU 都 有 一 块 独立 的 、 特 殊 设 计 的 存储 器 ， 它 映射 为 OpenCL 中 的 局 部 存储 器 。 在 
AMD GPU 和 NVIDIA GPU 上 ， 局 部 存储 器 的 访问 速度 非常 快 。 通 常 使 用 局 部 存储 器 需要 先 将 数据 从 全 局 存储 器 中 加 载 到 局 部 存 


储 器 中 ， 然 后 再 在 局 部 存储 器 中 计算 。 


对 于 索引 空间 的 每 个 大 小 为 BSX*BSY 的 工作 组 来 说 ， 


在 滤波 器 大 小 为 ff 时， 工作 组 中 所 有 工作 项 访问 的 数据 局 限 在 大 小 为 


(BSX+f-1) x (BSX+f-1) 的 内 容 中 ， 使 用 局 部 存储 器 加 载 输入 图 像 的 代码 如 代码 清单 9-8 所 示 ， 为 了 简单 起 见 ， 工 作 组 的 大 


小 限制 为 正方 形 ， 即 BSX==BSY。 


代码 清单 9-8 使 用 局 部 存储 器 优化 


1 kernel void convolutionConstantShared (intim. 
intimageOutSsizeyY, 

globalconst T* imageIny 

constanit Tg filterlt32*32]; 

global T* imageOut){ 


ageOoutSizexX, 


2 T local 1 pixels[ (BS+filterSize-1)*(BS +filterSize-1)]; 
3 int tidy = get local id(1); 
4 int y = get global id(1); 
3 inttidx = get local id(0); 
6 int x = get global id(0); 
intimageInSizeX = imageOutSizeX+filterSize- 1; 
8 // center 
9 1 pixels[tidxttidy* (BS+filterSize-1)] = 
加 imageIn[y*imageInSizeX+x]; 
10 // right 
11 if (tidx< filterSize-1){ 
12 1 pixels[tidx+BS+tidy* (BS+filterSize-1)] 
加 = imageIn [y*imageInSizeX+x+BS]; 
13 
14 if(tidy < filterSize-1){ 
3 1 pixels[tidx+ (tidy+BS)* (BS+filterSize- 1)] 
本 = jimageIn[ (y+BS) *imageInSizeX+x] 
16 
17 if(tidy < filterSize-l1 &&tidx< filterSize-1)f{ 
18 1 pixels[tidx+BS+ (tidy+BS)* (BS +filterSize-1)] 
= imageIn[ (y+BS) *imageInSizeX+BS+x]; 
19 
20 
21 barrier (CLK LOCAL MEM FENCE); 
22 加 = 
23 T sum= (T) 0; 
24 pragma unroll 
25 for (intfy = 0; fy<filterSize; fy++) 
26 #pragma unroll 
27 for (intfx = 0; fx<filterSize; fx++) 
28 T filterTtem = CG filter[fx + fy*filterSizel? 
29 T imageItem = 1 pixels[tidxt+fx + 
(fyttidy)* (BS +filterSize-1)]; 
30 Sum += filterIitem*imageItem; 
31 } 
32 
33 } 
34 imageOut [x+y*imageOutSizeX] = sum; 
35 } 


算法 将 输入 大 小 为 (BSX+f-1) * (BSY+f-1) 的 区 域 划分 成 4 小 块 ， 即 左上 角 、 右 上 角 、 左 下 角 、 右 下 角 。 代 码 第 9 行将 当 
前 工作 组 要 访问 的 输入 图 像 区 域 的 左上 和 角 加 载 到 局 部 存储 器 中 ， 代 码 第 11 到 13 行 将 当前 工作 组 要 访问 的 输入 图 像 的 右上 角 加 载 
到 局 部 存储 器 中 ， 代 码 第 14 到 16 行 将 当前 工作 组 要 访问 的 输入 图 像 的 左下 角 加 载 到 局 部 存储 器 中 ， 代 码 第 17 到 19 行 将 当前 工作 
组 要 访问 的 输入 图 像 的 右 下 角 加 载 到 局 部 存储 器 中 ， 为 了 保证 工作 组 内 所 有 工作 项 都 能 够 看 到 各 个 工作 项 加 载 到 局 部 存储 器 中 的 
数据 ， 第 21 行 使 用 了 barrier 函 数 来 同步 以 保证 工作 组 内 所 有 工作 项 都 可 以 看 到 加 载 到 局 部 存储 器 中 的 数据 。 


第 25 到 31 行 在 局 部 存储 器 和 常量 存储 器 中 获得 计算 需要 的 数据 ， 然 后 计算 一 个 结果 。 
(1) AMD GPU 


在 输出 图 像 大 小 为 1024x1024， 滤 波 器 大 小 为 5x 5 的 情况 下 ， 使 用 16x16 的 工作 组 在 M280X GPU 上 ， 计 算 时 间 为 
0.404ms。 故 计算 性 能 为 123.8 GFLOPS， 这 大 约 是 峰值 计算 性 能 的 12%， 因 此 有 很 大 的 优化 空间 。AMD CodeXL 结 果 表 明 : 计 
算 单 元 22% 的 时 间 在 忙碌 ， 存 储 器 单元 42% 的 时 间 在 忙碌 。 


在 输出 图 像 大 小 为 1024x 1024， 滤 波 器 大 小 为 5x5 的 情况 下 ， 使 用 16x16 的 工作 组 在 A10 APU 集 成 的 GPU 上 ， 计 算 时 间 为 
1.048ms。 故 计算 性 能 为 47.8 GFLOPS， 相 比 使 用 常量 人 存储 器 的 版 本 ， 获 得 了 30% 左 右 的 性 能 提升 。 计 算 性 能 相 比 理论 峰值 ， 差 
距 依旧 比较 大 。 使 用 AMD CodeXL 工 具 测 试 表明 : 计算 单元 80% 的 时 间 在 忙碌 ， 人 存储 器 单元 55% 的 时 间 在 忙碌 。 


由 于 之 前 分 析 代 码 的 性 能 限定 在 存储 器 访问 上 ， 因 此 使 用 局 部 存储 器 减少 访问 全 局 存储 应 该 能 够 产生 明显 的 优化 效果 。 但 是 
在 M280X 上 使 用 局 部 存储 器 减少 全 局 存储 器 访问 却 没 有 产生 明显 的 效果 ， 故 怀疑 是 不 是 因为 负载 不 平衡 ， 故 将 输出 图 像 大 小 弄 
成 2048x2048， 时 间 为 0.470ms。 


(2) RK3288 Mali T764 GPU 


ARM Mali T764 GPU 并 没有 采用 独立 的 局 部 存储 器 硬件 ， 因 此 使 用 了 常量 存储 器 代替 ， 考 虑 到 使 用 局 部 存储 器 增加 的 全 局 
存储 器 读 写 消 耗 ， 佑 计 运 算 时 间 会 增加 。 


在 输出 图 像 大 小 为 1024x 1024， 滤 波 器 大 小 为 5x5 的 情况 下 ， 使 用 16x16 的 工作 组 ， 在 RK3228 开 发 板 集成 的 GPU 上 运行 
时 ， 此 算法 的 运行 时 间 为 38ms。 相 比 前 面 的 版 本 ， 性 能 有 一 点 非常 小 的 下 降 。 
(3) NVIDIA GPU 


在 输出 图 像 大 小 为 1024x 1024， 滤 波 器 大 小 为 5x 5 的 情况 下 ， 使 用 16x16 的 工作 组 ， 在 NVIDIA Titan Black GPU 上 此 算法 
的 运行 时 间 为 0.201ms。 计 算 可 得 此 算法 的 计算 性 能 大 约 是 249 GFLOPS， 这 远 小 于 硬件 的 峰值 性 能 ; 如 果 假 设 所 有 输入 数据 都 
从 全 局 存储 器 读 取 (只 读 取 一 次 ) ， 那 么 大 致 计算 得 到 的 带宽 是 40GB/s; 对 于 局 部 存储 器 来 说 ， 如 果 假 设 每 次 访问 都 需要 读 取 
存储 体 ， 其 带宽 大 约 为 498GB/s; 对 于 常量 存储 器 来 说 ， 其 带宽 也 大 约 为 498GB/s。 


从 测试 数据 来 看 ， 无 论 是 浮 点 计算 性 能 ， 还 是 各 个 存储 器 的 估计 带 完 ， 都 远 小 于 硬件 的 理论 峰值 ， 因 此 此 算法 偏向 于 延迟 限 
制 ， 下 一 步 的 优化 应 当 着 眼 于 如 何 减少 访 存 和 计算 的 延迟 。 


9.6 一 个 工作 项 同时 计算 多 个 输出 


无 论 是 在 NVIDIA GPU 上 ， 还 是 在 AMD GPU 上 ， 延 迟 比 局 部 存储 器 和 常量 存储 器 小 的 只 有 寄存 器 ， 为 了 充分 地 利用 寄存 器 
的 低 延 迟 ， 可 以 使 用 一 个 工作 项 计算 多 个 输出 的 形式 ， 这 种 方法 有 如 下 优势 : 


1) 由 于 每 个 工作 项 可 以 同时 计算 多 个 输出 ， 能 够 更 好 地 达到 浮 点 乘 加 指令 的 吞吐 量 ; 
2) 一 次 加 载 的 滤波 器 值 能 够 多 次 重复 使 用 ， 减 少 了 从 常量 存储 器 中 加 载 滤 波 器 数据 的 次 数 。 
使 用 一 个 工作 项 计算 多 个 输出 的 代码 如 代码 清单 9-9 所 示 。 


代码 清单 9-9 一 个 工作 项 计算 多 个 输出 


1 kernel void convolutionConstantSharedUnroll (intimageOutSizex, 
intimageOutSizeY, global const T* :imageIny 
constant T c filter[32*32], global T* imageOut){ 
2 TLocal 1 .pixels[ (BS*BX+filterSize-1)* (BS*BY+filterSize-1)]; 
3 int tidy = get local id(1); 
4 int y = get global . id(1); 
5 inttidx = get local id(0); 
6 int x = get global id(0); 
ff intimageInSizeX = imageOutSizeXx+filterSize- 1; 
8 // center 
9 for(int i = 0; i < BX; i++){ 
10 for (int ] = 0; j] < BY j++){ 
于 于 1 pixels[tidx+BS*i+(tidy+BS*j)* (BS*BX+filterSize-1)] 
= imageIn[ (BS*j+y)*imageInSizex +BS*i+x]; 
12 
13 } 
14 // right 
Ts if (tidx< filterSize- 工 ) { 
16 for (int ] =0;]j< BY; j++){ 
1 1 pixels[tidx+BS*BX+ (tidy+BS*j)* (BS*BX+filterSize-1)] 
= imageIn[ (y+j*BS) *imageInSizeX+x+BX*BS]; 
18 
19 } 
20 if(tidy < filterSize-1){ 
21 for (nt i = 0; i < BX; i++){ 
2 1 pixels[tidx+BS*i+(tidy+BS*BY)* (BS*BX+filterSize-1)] 
加 = imageIn[ (y+BS*BY) *imageInSizeX+tx+BS*i]; 
23 
24 
25 if(tidy < filterSize-l1 &&tidx< filterSize-1){ 
26 1 pixels[tidx+BS*BX+ (tidy+BS*BY)* (BS*BX +filterSize-1)] 
= imageIn[ (y+BS*BY) *imageInSizeX+BS*BX+x]; 
27 
28 
29 barrier (CLK LOCAL MEM FENCE); 
230 
31 T sum[lBX*BY] = {(T) 0}; 
32 pragma unroll 
33 for (intfy = 0; fy<filterSize; fy++)f{ 
34 #pragma unroll 
35 for(intfx = 0; fx<filterSize; fx++) { 
36 T"filteritenm 三 C filter[lfx+ fy*filterSizel]; 
37 #pragma unroll 
38 for(int i = 0; i < BX; i++){ 
39 pragma unroll 
40 for (int ] = 0; j] < BY j++){ 
41 T imageItem = 1 pixels [BX*tidx+i+fx 
+ (fyttidy*BY+]j)* (BS*BX +filterSize-1)]; 
42 sum[i+j*BX] += filterIitem*imageItem; 
43 
44 } 
45 
47 } 
48 #pragma unroll 
49 for(int i = 0; i < BX; i++){ 
50 pragma unroll 
51 for (int ] = 0; j] < BY; j++){ 
D2 imageOut [x+tidx* (BX-1)+i+ (yttidy* (BY- 1)+j)*imageOutSizexX] 
= sum[j*BX+i]; 
53 
54 } 
55: 
56 


第 9 到 30 行 内 容 已 经 在 9.5 节 中 解释 ， 因 此 不 再 重复 。 第 37 到 40 行 遍历 循环 展开 内 容 ， 以 同时 计算 多 个 输出 结果 。 第 48 到 51 
行 ， 每 个 工作 项 写 多 个 输出 结果 


为 了 便于 调整 循环 展开 次 数 ， 笔 者 同时 对 行 和 列 执行 了 循环 展开 ， 并 且 通 过 BX 和 BY 两 个 宏 来 控制 循环 展开 次 数 。 
(1) AMD GPU 


在 输出 图 像 大 小 为 1024x 1024， 滤 波 器 大 小 为 5x 5 的 情况 下 ， 在 工作 组 大 小 为 16x16 的 条 件 下 ， 在 M280X GPU 
上 ，BX=2，BY=1 的 前 提 下 ， 运 算 时 间 为 0.351ms。 计 算 可 得 计算 性 能 为 142.5 GFLOPS， 这 大 约 是 峰值 计算 性 能 的 14%。 
AMD CodeXL 分 析 结 果 表 明 : 计算 单元 24% 的 时 间 在 忙碌 ， 全 局 存储 器 单元 45% 的 时 间 在 忙碌 。 


在 输出 图 像 大 小 为 1024x 1024， 滤 波 器 大 小 为 5x 5 的 情况 下 ， 在 工作 组 大 小 为 16x 16 的 条 件 下 ， 在 A10 APU 集 成 的 GPU 
上 ，BX=2，BY=1 的 前 提 下 ， 运 算 时 间 为 0.707ms。 计 算 可 得 计算 性 能 为 70.7 GFLOPS。AMD CodeXL 分 析 结 果 表 明 : 计算 单 
元 80% 的 时 间 在 忙碌 ， 存 储 器 单元 45% 的 时 间 在 忙碌 。 
(2) NVIDIA GPU 
在 输出 图 像 大 小 为 1024x 1024， 滤 波 器 大 小 为 5x 5 的 情况 下 ， 在 工作 组 大 小 为 16x 16 的 条 件 下 ， 循 环 展开 采用 BX=2 和 和 
BY=2 的 前 提 下 ， 在 NVIDIA Titan Black GPU 上 此 算法 的 运行 时 间 为 0.110ms。 计 算 可 得 此 算法 的 计算 性 能 大 约 是 445 


GFLOPS， 这 远 小 于 硬件 的 峰值 性 能 ; 如 果 假 设 所 有 输入 数据 都 从 全 局 存储 器 读 取 (只 读 取 一 次 ) ， 那 么 大 致 计算 得 到 的 带宽 是 
72GB/s。 


从 算法 来 看 ， 读 输入 数据 时 可 使 用 restrict 来 修饰 指针 ， 使 用 此 优化 后 ， 运 行 时 间 为 0.097ms， 此 时 计算 性 能 大 约 是 516 
GFLOPS., 


(3) RK3288 Mali T764 GPU 


在 输出 图 像 大 小 为 1024x 1024， 渡 波 器 大 小 为 5x 5 的 情况 下 ， 在 工作 组 大 小 为 16x 16 的 条 件 下 ， 循 环 展开 及 用 BX=2 和 
BY=1 的 配置 情况 下 ， 此 算法 的 运行 时 间 为 ?55ms。 性 能 相 比 前 一 版 本 慢 了 大 约 一 倍 ， 笔 者 怀疑 是 因为 增加 了 全 局 人 存储 器 的 访问 
次 数 。 


9.7 ”本章 小 结 


本 章 通 过 在 AMD GCN GPU 和 NVIDIA Kepler GPU 上 使 用 OpenCL 优 化 二 维 卷 积 运算 ， 来 展示 如 何 使 用 常量 存储 器 、 局 部 
存储 器 来 优化 存储 器 限制 的 程序 的 性 能 ， 同 时 通过 一 个 工作 项 一 次 计算 多 个 输出 以 重复 使 用 加 载 到 寄存 器 的 滤波 器 数据 。 


本 章 以 1024x 1024 的 输出 图 像 ，5x 5 的 滤波 器 为 例 ， 展 示 了 : 无 论 是 对 NVIDIA GPU， 还 是 AMD GCN GPU， 对 一 种 架构 
有 效 的 优化 方式 对 另外 一 种 架构 也 有 效 ， 故 可 以 简单 地 认为 : 优化 方式 是 类 似 甚 至 相同 的 。 


对 于 嵌入 式 的 ARM Mali T764 GPU 而 言 ， 其 没有 独立 的 常量 存储 器 缓存 和 局 部 存储 器 硬件 ， 因 此 使 用 这 两 种 存储 器 的 优化 
不 会 带 来 好 处 ， 反 而 因为 增加 了 全 局 存储 器 的 访问 次 数 而 导致 性 能 下 降 。 


第 10 章 “OpenCL 计 算 和 矩阵 乘 ; 


实际 的 许多 工程 应 用 都 涉及 或 可 转化 为 矩阵 乘法 ， 因 此 其 常 成 为 衡量 硬件 性 能 的 标准 。 如 NVIDIA 和 AMD 发 布 新 的 GPU 处 
理 器 时 ， 经 常 就 宣称 其 gemm ( 单 精度 稠密 矩阵 乘法 ) 或 dgemm ( 双 精 度 稠密 矩阵 乘法 ) 性 能 达到 多 少 FLOPS。 因 此 如 何 高 
效 地 将 矩阵 乘法 映射 到 硬件 上 就 非常 重要 ， 这 成 为 衡量 硬件 性 能 的 实际 标准 之 一 ， 同 时 也 应 当成 为 衡量 软件 开发 人 员 性 能 优化 水 
平 的 标准 之 一 。 


对 于 一 个 大 小 为 MK 的 矩阵 与 一 个 大 小 为 K*N 的 矩阵 相 乘 ， 其 结果 为 一 个 大 小 为 M*N 的 矩阵 。 在 最 理想 情况 下 ， 其 计算 访 


存 比 例 为 ZxMxKxN/ (MxK+KxN+MxN) ， 假 设 都 是 方 阵 ， 即 M=K=N， 那 么 计算 访 存 比 可 简化 。 但 是 由 于 现代 处 理 器 的 
缓存 大 小 是 有 限 的 ， 因 此 计算 访 存 比 上 限 通 常 受 限于 寄存 器 数量 和 缓存 容量 。 


在 现代 多 核 向 量 处 理 器 上 实现 和 矩 阵 乘法 时 ， 需 要 注意 以 下 几 点 : 
: 对 全 局 存储 器 (DRAM) 的 访问 是 否 高 效 。 比 如 实现 时 是 否 能 够 使 用 向 量 加 载 、 存 储 指 令 ; 是 否 满足 合并 访问 的 要 求 。 
. 是 否 很 好 地 使 用 处 理 器 核心 上 的 缓存 。 比 如 在 GPU 上 实现 时 是 否 很 好 地 利用 了 局 部 存储 器 带宽 。 


. 是 否 很 好 地 使 用 了 寄存 器 分 块 算法 。 在 GPU 上 ， 如 果 不 考 虑 寄存 器 数据 重用 ， 一 级 缓存 或 局 部 存储 器 的 带宽 和 延迟 无 法 满 
足 矩 阵 乘 法 计算 的 要 求 。 


. 考虑 生成 的 指令 是 否 足 够 好 。 在 支持 乘 加 指令 的 处 理 器 上 不 应 当 生 成 乘 与 加 指令 。 
. 是 否 考 虑 到 如 何 掩 盖 指 令 和 访 存 延迟 。 需 要 有 足够 的 计算 和 访 存 并 行 度 以 利用 处 理 器 计算 单元 和 访 存单 元 的 带宽 。 
本 节 将 主要 基于 AMDGPU 和 NVIDIA GPU 上 实现 矩阵 乘法 。 


为 了 一 致 和 和 简化 问题 ， 笔 者 假设 本 节 示 例 所 有 的 矩阵 中 ，M=2048，K=2048，N=2048。 本 章 所 使 用 的 硬件 平台 和 第 9 章 相 
同 ， 故 不 重复 。 


10.1 ” 串 行 实现 


本 节 以 矩阵 乘法 为 例 说 明 如 何 使 分 块 处 理 的 思想 和 共享 存储 器 的 使 用 结合 起 来 ， 同 时 使 用 分 块 思想 解决 了 共享 存储 器 容量 不 
足 的 问题 。 


为 了 方便 报 述 ， 假 设 和 矩阵 a 的 尺寸 为 M 行 K 列 ， 数 据 以 行 优先 方式 存储 ; 矩阵 b 的 尺 斗 为 K 行 N 列 ， 数 据 同 样 以 行 优先 方式 人 存 
储 ; 矩阵 c 的 尺寸 为 M 行 N 列 ,数据 同样 以 行 优先 方式 存储 。 同 时 为 了 简化 问题 的 描述 ， 假 设 M、N 和 K 都 是 32 的 倍数 。 


10.2 简单 OpenCL 实 现 


使 用 OpenCL 实 现 矩阵 乘法 需要 考虑 如 何 将 计算 映射 到 OpenCL 的 工作 项 上 ， 或 者 说 每 个 OpenCL 工 作 项 负责 计算 什么 ， 很 
明显 : 每 个 工作 项 负责 计算 矩阵 c 的 一 个 结果 是 一 个 非常 直观 、 明 智 的 选择 。 


代码 清单 10-4 是 和 矩阵 相 乘 内 核 的 一 个 简单 、 直 接 的 实现 ， 每 个 线程 读 取 和 矩阵 a 的 一 行 和 矩阵 b 的 一 列 ， 计 算 后 将 结果 保存 到 
和 矩阵 c 对 应 的 位 置 。 


代码 清单 10-4 OpenCL 初 次 实现 矩阵 乘法 


1 // Matrix multiplication kernel 

2 kernel void matrixMultiplyNaiveKernel (int M, int NN, int K, 
const global T *a, const global T *b, global T *c){ 
int i = get global id(1); 
int j = get global id(0); 


QU 心 


TVv= 0; 


7 for (int k = 0; k < K; k++){ 
8 V+= a[li * K+ kl] 
9 

0 


c[i*N+j] = Vv; 
11 } 


* blk * N+ Jj]; 


代码 第 3 和 4 行 获得 当前 工作 项 需要 计算 的 矩阵 < 元素 索 引 ， 代 码 第 7 行 遍 历 和 矩阵 a 的 行 和 和 矩阵 b 的 列 ， 将 计算 乘 加 求 和 。 代 码 
第 10 行 将 计算 结果 保存 到 和 矩 阵 c 中 。 


对 于 某 次 固定 的 循环 来 说 ( 即 第 7 行 的 k 值 固定 ) ， 此 时 i 值 相 同 的 工作 项 都 访问 答 阵 a 的 同一 个 地 址 ; 而 访问 憩 阵 b 则 相 邻 的 
工作 项 访问 相 邻 的 地 址 。 


(1) AMD GPU 性 能 


在 AMD A107400P APU 上 ， 测 得 计算 时 间 为 929ms， 计 算得 到 其 计算 性 能 为 17.6 GFLOPS， 此 值 离 峰值 性 能 距离 相当 远 。 
使 用 AMD CodeXL 工 具 分 析 结果 显示 : 向 量 计算 单元 99% 的 时 间 在 忙碌 ， 存 储 器 单元 98% 的 时 间 在 忙碌 。 


在 AMD R9 M280X 上 ， 测 得 计算 时 间 为 133.98ms， 计 算得 到 其 计算 性 能 为 122.3 GFLOPS。CodeXL 结 果 显 示 : 向 量 计算 
单元 22% 的 时 间 在 忙碌 ， 存 储 器 单元 22% 的 时 间 在 忙碌 。 从 数据 可 以 看 出 ， 这 更 类 似 于 由 于 存储 器 访问 延迟 导致 计算 吞吐 量 和 人 存 
储 器 带宽 都 没有 很 好 的 使 用 ， 下 一 步 的 优化 应 当 关 注 于 如 何 减少 存储 器 访问 延迟 。 
从 代码 中 可 以 看 出 ， 读 取 a 时 ， 在 AMD GCN GPU 上 满足 合并 访问 (广播 ) ; 读 取 b 时 ， 满 足 合并 访问 条 件 ， 写 c 时 ， 也 满 
足 合并 访问 条 件 。 


相对 来 说 ， 此 算法 在 A10 APU 集 成 的 GPU 性 能 相对 比较 差 ， 由 于 CodeXL 工 具 缺 乏 足够 的 功能 


能 ， 比 如 全 局 存储 器 和 缓存 带 
宽 ， 局 部 存储 器 带宽 等 ， 因 此 目前 无 法 判断 原因 。 不 过 笔者 估计 最 大 的 可 能 性 来 自 于 二 级 缓 企 和 一 级 缓存 的 带宽 。 
(2) NVIDIA GPU 性 能 


从 代码 中 可 以 看 出 ， 读 取 a 时 ， 满 足 合并 访问 (广播 ) ; 读 取 b 时 ， 满 足 合 并 访问 条 件 ， 写 < 时， 也 满足 合并 访问 条 件 。 


在 使 用 16x 16 的 工作 组 大 小 ， 在 NVIDIA Titan Black GPU 上 ， 此 算法 获得 了 147.5 GFLOPS 的 性 能 ， 分 析 发 现 其 性 能 限制 
在 读 取 全 局 存储 器 上 ， 因 此 下 一 步 的 优化 重点 在 于 如 何 减少 算法 对 全 局 存储 器 的 访问 次 数 。 


(3) RK3288 Mali T764 GPU 


在 使 用 16x16 的 工作 组 大 小 ， 在 T764 GPU 上 ， 此 算法 获得 了 3 GFLOPS 的 性 能 。 而 理论 上 开发 板 的 Mali GPU 最 高 计算 性 能 
大 约 为 48 GFLOPS， 离 峰值 非常 远 。 从 代码 来 看 ， 此 算法 性 能 应 当 限 制 在 存储 器 访问 上 面 ,但 是 由 于 缺乏 工具 ， 不 能 
时 信息 佐证 。 


10.3 ”使 用 局 部 仓储 器 优化 
仔细 分 析 代码 清单 10-4 发 现 ， 对 于 每 次 循环 ，i 相 同 的 线程 都 读 了 相同 的 a 中 数据 ;j 相 同 的 线程 都 读 取 了 相同 的 b 中 数据 ， 这 
意味 着 对 于 工作 组 内 的 所 有 线程 来 说 ， 访 问 矩 阵 3 和 短 阵 b 都 存在 重用 ， 这 意味 着 有 利用 局 部 存储 器 减少 对 全 局 存储 器 访问 数量 
的 可 能 。 


很 明显 ， 可 以 使 用 一 个 线程 块 计算 a 的 X 行 和 b 的 X 列 的 乘积 ， 这 种 方式 可 以 使 用 局 部 存储 器 存储 对 应 的 数据 。 但 是 目前 在 


AMD GCN GPU 上 每 个 工作 组 能 够 使 用 的 局 部 存储 器 的 最 大 大 小 为 32KB; 在 NVIDIA GPU 上 每 个 工作 组 可 使 用 的 最 大 局 部 存储 
器 容量 为 16KB、32KB 或 48KB。 这 意味 着 只 要 X 稍 微 大 点 就 有 可 能 超过 局 部 存储 器 容量 的 大 小 限制 。 此 问题 可 以 通过 将 a 的 X 行 和 
b 的 X 列 再 次 进行 划分 才 可 以 解决 ， 具 体 细节 下 面 详细 说 明 。 


在 本 节 的 算法 设计 中 ， 每 个 工作 组 负责 计算 一 个 小 方 阵 sub，sub 是 c 的 一 部 分 ， 而 工作 组 内 的 每 个 工作 项 计算 sub 的 一 个 元 
素 。sub 等 于 两 个 长 方形 矩阵 的 乘积 : a 的 子 和 矩阵 尺寸 是 (X,K) ”(X 行 K 列 ) ，b 的 子 答 阵 的 尺寸 是 〈K,X) ” (K 行 X 列 ) 。 正 如 前 
面 所 说 ， 这 会 导致 局 部 存储 器 量 不 足 的 问题 ， 为 了 满足 设备 的 资源 ， 再 次 使 用 分 块 处 理 的 思想 ， 将 两 个 长 方形 的 子 和 矩阵 分 割 成 尺 
十 为 (X，X) 的 方 阵 ，sub 是 对 这 些 方 阵 积 求 和 。 为 了 方便 计算 ， 将 工作 组 大 小 设置 为 X*X， 这 样 就 无 须 显 式 地 保存 sub 子 矩 
阵 ， 工 作 组 中 的 每 个 工作 项 只 需要 保存 sub 子 矩阵 的 一 个 元 素 即 可 ， 如 代码 清单 10-5 所 示 。 


代码 清单 10-5 ”局 部 存储 器 优化 矩阵 乘法 


记 


// Matrix multiplication kernel 
2 kernel void matrixMultiplyKernel (int M, int N, int K, 
const global float *a, const global float *b, global float *c) { 


3 int by = get group id(1); 
4 int bx = get group id(0); 
5 int tx = get local id(0); 
6 int ty = get local id(1); 
7 
8 local float ta[BS] [BS]; 
9 local float tb[BS] [BS]; 
10 
二 int ab = K*BS*by; 
12 int ae = ab+K; 
$3 
14 int bb = BS*pbx; 
15 
16 float v = 0.0f; 
下 了 
18 Gl ey oy 
19 for(i = ab, j] = bb; i < ae; i += BS, j += BS*N) { 
20 ta [ty] [tx] = a[litty*K+ttx]; // codel 
21 tb [ty] [tx] = b[j+ty*N+tx]; // code2 
22 
2.3 barrier (CLK LOCAL MEM FENCE); 
24 for (int k = 0; k < BS; k++){ 
25 V += talty] [Kk]*tb[k] [tx];// code3 
26 
2:/ barrier (CLK LOCAL MEM FENCE); 
28 } 
29 C[BS*N*by + bx*BS + tyxN + tx] = Vv;// coqe4 
30 } 


代码 第 3 和 4 行 表示 当前 工作 组 的 行列 索引 ， 也 表示 当前 工作 组 要 计算 的 小 矩阵 分 块 索引。 代码 第 35 和 6 行 表示 当前 工作 组 内 
的 工作 项 的 行列 索引 ， 也 表示 当前 工作 组 要 计算 的 小 矩阵 的 元 素 索引 。 


每 个 小 方 阵 sub 的 具体 计算 流程 是 这 样 的 : 


1) 以 一 个 工作 项 载 入 一 个 数据 的 方式 从 全 局 存储 器 中 将 两 个 对 应 的 小 方 阵 载 入 局 部 存储 器 中 ， 同 步 以 保证 计算 结果 已 经 写 
入 局 部 人 存储器， 如 代码 第 20、21、23 行 所 示 。 


2) 一 个 工作 项 计算 乘积 的 一 个 元 素 ， 并 将 结果 保存 在 寄存 器 中 ， 循 环 这 一 步 直 到 计算 完 两 个 小 方 阵 中 的 对 应 数据 ， 如 代码 
第 24、25、26 行 所 示 。 


3) 同步 保证 工作 组 内 所 有 工作 项 都 已 经 使 用 完 加 载 进 局 部 存储 器 的 数据 ， 循 环 第 19 行 ， 直 到 计算 完 sub。 
4) 将 每 个 工作 项 的 寄存 器 中 的 结果 写 入 全 局 存储 器 ， 如 第 29 行 所 示 。 
这 种 设计 使 得 总 工作 项 数量 为 M*N.。 


采用 这 种 分 块 的 思想 计算 矩阵 相 乘 ， 可 以 利用 快速 的 局 部 存储 器 ， 减 少许 多 全 局 存储 器 的 访问 请 求 : 矩阵 a 只 读 了 (N/X) 


次 ; 同时 矩 阵 B 读 了 (M/X) 次 。 这 意味 着 如 果 X 大 ， 对 全 局 存储 器 的 读 写 次 数 就 会 比较 少 ， 但 这 会 减少 每 个 CU 上 同时 执行 的 工 
作 组 数量 ， 也 可 能 由 于 寄存 器 的 使 用 过 多 而 减少 CU 的 占用 率 ， 前 一 方面 会 增加 程序 的 性 能 ， 而 后 一 方面 会 使 得 程序 的 性 能 减 
少 ， 故 存在 一 个 最 优 的 X 大 小 。 


从 代码 中 可 以 看 出 ，code1、code2 和 code4 处 读 或 写 全 局 存储 器 都 满足 合并 访问 的 要 求 ， 而 code1、code2 和 code3 处 读 
写 共享 存储 器 也 没有 存储 体 冲突 。 


(1) AMD GPU 性 能 


使 用 16x16 大 小 的 工作 组 ， 在 AMD A107400P APU 上 ， 测 得 计算 时 间 为 156ms， 计 算得 到 其 计算 性 能 为 105 GFLOPS。 
CodeXL 结 果 显示 : 向 量 计算 单元 65% 的 时 间 在 忙碌 ， 存 储 器 单元 37% 时 间 在 忙碌 ， 结 果 说 明 计 算 和 访 存 的 延迟 并 没有 很 好 的 隐 


Si 


志 k。 


使 用 16x16 大 小 的 工作 组 ， 在 AMD R9 M280X 上 ， 测 得 计算 时 间 为 55.6ms， 计 算得 到 其 计算 性 能 为 295 GFLOPS。 
CodeXL 结 果 显示 : 向 量 计算 单元 22% 的 时 间 在 忙碌 ， 存 储 器 单元 26% 的 时 间 在 忙碌 ， 这 说 明代 码 的 性 能 限制 在 访 存 或 计算 延迟 
上 。 


要 进一步 优化 性 能 需要 减少 访 存 和 计算 延迟 ， 由 于 代码 的 主要 指令 是 : @@ 从 全 局 存储 器 加 载 数 据 ;，@ 保 存 数据 到 寄存 器 ;@ 
从 局 部 存储 器 中 读 取 数据 ，@ 计 算 延 迟 。 由 于 AMD 并 没有 提供 汇编 器 ， 因 此 关于 计算 延迟 的 优化 目前 来 说 并 没有 好 办 法 。 故 目 
前 看 来 更 大 的 优化 可 能 性 在 于 @ 和 @)， 大 多 数 GPU 都 提供 了 向 量 加 载 存 储 指令 ， 这 些 指令 能 够 减少 硬件 对 局 部 存储 器 和 全 局 存 
储 器 的 访问 次 数 或 减少 指令 延迟 。 


(2) NVIDIA GPU 性 能 


在 使 用 16x 16 的 工作 组 大 小 ， 在 NVIDIA Titan Black GPU 上 ， 此 算法 获得 了 357 GFLOPS 的 性 能 ， 性 能 已 经 比 10.2 节 的 版 
本 快 了 许多 ,分析 发 现 其 性 能 限制 在 读 取 局 部 存储 器 和 全 局 存储 器 上 ， 因 此 下 一 步 的 优化 重点 在 于 如 何 减少 算法 对 局 部 存储 器 和 
全 局 存储 器 的 访问 次 数 。 


(3) RK3288 Mali T764 GPU 


由 于 没有 专用 的 局 部 存储 器 硬件 ， 此 算法 的 运算 性 能 为 1 GFLOPS， 相 比 前 一 个 版 本 ， 性 能 下 降 了 3 倍 。 原 因 在 于 : ARM 
Mali GPU 并 没有 专用 的 局 部 存储 器 单元 ， 局 部 仓储 器 被 映射 到 和 全 局 存储 器 相同 的 局 域 ， 因 此 本 节 的 算法 反而 增加 了 全 局 存储 
器 读 操作 数量 。 


10.4 ”使 用 向 量 加 载 指 令 


NVIDIA GPU 和 AMD GPU 都 支持 向 量 加 载 和 存储 指令 ， 使 用 向 量 加 载 存储 指令 一 方面 能 够 更 好 地 在 NVIDIA GPU 和 AMD 
GPU 上 发 挥 局 部 存储 器 的 带宽 、 减 少 延 迟 ， 同 时 也 能 够 减少 加 载 、 存 储 指令 的 数量 进而 改善 指令 效率 ， 使 用 向 量 加 载 、 存 储 指 
令 优 化 和 矩 阵 乘 法 的 代码 如 代码 清单 10-6 所 示 。 

对 于 和 矩 阵 乘 法 来 说 ， 可 以 采用 一 个 工作 项 计算 16 个 结果 的 方式 ， 这 样 可 以 采用 float4 数 据 类 型 加 载 和 矩阵 b、 存 储 和 矩阵 C， 同 时 
使 用 float4 来 保存 加 载 到 局 部 存储 器 中 的 中 间 结 果 。 


使 用 每 个 工作 项 计算 16 个 结果 的 方式 ， 要 求 总 的 工作 项 数量 减 至 原来 的 /16， 即 行列 的 工作 项 数量 各 减少 到 原来 的 1/4。 


使 用 向 量 加载 、 存 储 指令 来 优化 矩阵 乘法 具有 许多 优势 : 

1) 每 个 工作 项 具有 更 多 的 工作 要 做 ， 能 够 更 好 地 发 挥 硬件 的 吞吐 量 。 

2) 每 个 工作 组 加 载 更 大 块 小 矩阵 ， 计 算 结果 小 矩阵 的 尺寸 也 更 大 ， 能 够 减少 读 写 全 局 存储 器 的 次 数 。 
3) GPU 硬件 在 读 写 全 局 存储 器 和 局 部 存储 器 时 ， 为 向 量 加载 、 存 储 做 了 特殊 优化 ， 因 此 执行 效率 更 好 。 


代码 清单 10-6 ”使 用 向 量 加 载 指令 优化 矩阵 乘法 


1 // Matrix multiplication kernel 
2 kernel void matrixMultiplyKernel (int M, int N, int K, 
const global float *a, const global float4 *b, global float4 *c) { 


3 int by = get group id(1); 

4 int bx = get group id(0); 

5 int tx = get local id(0); 

6 int ty = get local id(1); 

7 

8 local float4 ta[BS] [BS]; 

9 local float4 tb[BS] [BS]; 

10 

11 int ab = 4*K*BS*py; 

12 int ae = abt+K; 

3 

14 int bb = BS*bx; 

1 

16 float4 v[4]; 

1 for(int ii = 0; ii < 4; ii++) { 

18 Vv[ii] = 0.0f; 

19 } 
20 
21 const int N float4 = N/4; 
22 EE 
23 i oa i 
24 for(i = ab, ] = bb; i < ae; i += BS, j += BS*N float4) { 
25 float4 temp; 
26 temp.x = a[O*BS*K + i+ty*K+tx]; // codel 
27 temp.y = a[l*BS*K + i+ty*K+tx]; // codel 
28 temp.z = a[2*BS*K + i+ty*K+tx]; // codel 
29 temp.w = a[3*BS*K + i+ty*K+tx]; // codel 
30 talty] [tx] = temp; 
31 
32 tb [ty] [tx] = b[j+ty*N float4+tx]; // code2 
BS: 
34 barrier (CLK LOCAL MEM FENCE); 
35 or (int k = 0; k < BS; k++){ 
36 Vv = ta[ty] [k] .x*tb[k] [tx];// code3 
37 v[1] += ta[ty] [k] .y*tb[k] [tx];// code3 
38 Vv[2] += ta[ty] [k] .z*tb[k] [tx];// code3 
39 v[3] += ta[ty] [k] .w*tb[k] [tx];// code3 
40 } 

41 barrier (CLK LOCAL MEM FENCE); 

42 } a a 加 

43 

44 for(int ii = 0; ii < 4; I++) { 

45 CI[IN float4* (BS* (iitby*4) + ty) + bx*BS+ tx] = Vv[ii];// code4 
46 } 

47 } 

48 


代码 第 16 到 19 行 初始 化 每 个 工作 项 要 计算 的 部 分 结果 。 代 码 第 25 到 30 行 从 和 矩阵 a 中 加 载 数 据 并 保存 到 局 部 存储 器 中 。 代 码 
第 32 行 从 矩阵 pb 中 加 载 数据 到 局 部 存储 器 中 。 代 码 第 35 到 40 行 在 局 部 人 存储 器 中 计算 每 个 工作 项 要 计算 的 部 分 结果 。 代 码 第 44 到 
46 行 将 每 个 工作 项 计算 的 部 分 结果 写 入 全 局 存储 器 中 。 


(1) AMD GPU 


在 AMD A107400P APU 上 ， 测 得 计算 时 间 为 67.569ms， 计 算得 到 其 计算 性 能 为 242.5 GFLOPS。CodeXL 结 果 显 示 : 向 量 
计算 单元 66% 的 时 间 在 忙碌 ， 存 储 器 单元 20% 的 时 间 在 忙碌 。 


在 AMD R9 M280X 上 ， 测 得 计算 时 间 为 24.5ms， 计 算得 到 其 计算 性 能 为 669.5 GFLOPS。CodeXL 结 果 显 示 : 向 量 计算 单 


元 47% 的 时 间 在 忙碌 ， 存 储 器 单元 20% 的 时 间 在 忙碌 。 


此 算法 获得 大 的 性 能 提升 的 主要 原因 在 于 : 对 于 局 部 存储 器 而 言 ， 使 用 向 量 数 据 类 型 能 够 让 编译 器 生成 向 量 读 取 指令 ， 更 好 
地 发 挥 局 部 存储 器 的 带 完 ， 每 个 工作 项 计算 多 个 结果 可 以 重用 加 载 到 局 部 存储 器 的 数据 以 减少 读 写 局 部 存储 器 的 次 数 。 


一 个 工作 项 使 用 向 量 指令 同时 计算 多 个 结果 还 利用 了 寄存 器 分 块 技术 ， 寄 存 器 分 块 技术 是 指 ， 加 载 多 个 数据 进入 寄存 器 ， 以 
减少 对 存储 器 和 缓存 的 访问 次 数 。 如 本 节 算 法 一 个 工作 项 计算 4x4 的 结果 ， 实 际 上 只 需要 加 载 8 个 数据 ， 但 是 计算 了 16 个 结果 ， 
成 售 地 减少 了 对 全 局 存储 器 和 局 部 存储 器 的 访问 次 数 。 


(2) NVIDIA GPU 


在 使 用 16x 16 的 工作 组 大 小 ， 在 NVIDIA Titan Black GPU 上 ， 此 算法 获得 了 1254 GFLOPS 的 性 能 ， 相 比 只 使 用 局 部 存储 器 
的 版 本 ， 性 能 提升 3 倍 以 上 。 


分 析 发 现 其 性 能 限制 在 读 取 局 部 存储 器 和 全 局 存储 器 上 ， 因 此 下 一 步 的 优化 重点 依旧 在 于 如 何 减少 算法 对 局 部 存储 器 和 全 局 
存储 器 的 访问 次 数 。 


(3) RK3288 Mali T764 GPU 


对 于 Mali T764 GPU 来 说 ， 每 个 计算 ALU 都 是 VLIW4， 因 此 使 用 float4 能 够 充分 发 挥 VLIW4 的 效率 ， 计 算 性 能 大 
5.8GFLOPS， 相 比 前 面 的 版 本 ， 提 升 大 约 6 倍 。 本 节 算 法 充分 说 明了 要 在 Mali T764 GPU 上 发 挥 性 能 ， 必 须要 使 用 向 量 数据 类 


型 。 


笔者 在 ARM A15 CPU 上 实现 过 和 矩阵 乘法 ， 单 核 最 高 性 能 可 达 10 GFLOPS， 相 关 信 息 可 参考 刘 文 志 的 《并 行 编程 方法 与 优 
化 实践 》 一 书 。 


10.5 一 个 工作 项 同时 计算 多 个 输出 


对 于 AMD GCN GPU,， 每 个 工作 项 最 大 可 使 用 的 寄存 器 数量 为 255 个 ， 从 CodeXL 中 可 以 看 到 : 代码 清单 10-6 使 用 了 32 个 
(此 值 可 能 会 和 驱动 、 硬 件 及 OpenCL 环 境 有 关 ) 寄存 器 ， 因 此 可 以 接着 使 用 寄存 器 分 块 技术 进一步 提升 性 能 。 


为 了 使 用 更 多 的 寄存 器 优化 性 能 ， 可 以 每 个 工作 项 计算 更 多 的 数据 ， 代 码 清单 10-6 中 每 个 工作 项 计算 16 个 结果 (处 理 M 上 
的 4 个 值 和 N 上 的 4 个 值 ) ， 实 际 上 可 以 计算 更 多 ， 比 如 32 个 或 64 个 。 为 了 便于 选择 最 优 的 参数 ， 可 以 使 用 宏 表 示 ， 如 代码 清单 
10-7 中 的 unroll_m _float4 宏 和 unroll_n_float4 宏 。 


代码 清单 10-7 使 用 更 多 寄存 器 优化 


1 // Matrix multiplication kernel 
2 kernel void matrixMultiplyKernel (int M, int N, int K, 
const global float *a, const global float4 *b, 
global float4 *c) { 
int by = get group id 
int bx = get group id 
int tx = get local id 


(1 
(0); 
(0); 
int ty = get local id(1 


‘OO 


#define unroll m float4 (unroll m/4) 


10 local float4 tal[lBS*unroll m float4] [BS]; 
下 于 local float4 tb[BS*unroll n float4] [BS]; 
12 


13 int ab unroll m*K*BS*by; 


14 int ae ab+K; 

15 

16 int bb = BS*bx*unroll n float4; 

17 

18 float4 v[unroll m] [unroll n float4]; 

19 for(int ii = 0; ii < unroll my ii++) { 

20 for(int j=.0; 1 < “nroll n. float4d; Jj++) .{ 

21 v[ii][jj] = 0.0f; 

22 } 

23 } 

24 

25 const int N float4 = N/4; 

26 

2 Tt Lr 

28 for(i = ab j] = bb; i < ae; i += BS, j += BS*N float4) { 

29 for(int Ti = 0% 41 < unroll m float4; Tit+) { 

30 float4 temp; 

31 temp.x = a[ (4*ii+0)*BS*K + i+tty*K +tx]; // codel 

32 temp.y = a[ (4*ii+1)*BS*K + i+tty*K +tx]; // codel 

33 temp.z = a[ (4*ii+2)*BS*K + i+tty*K +tx]; // codel 

34 temp.w = a[ (4*ii+3)*BS*K + i+tty*K +tx]; // codel 

5 ta[lii*BS+ty] [tx] = temp; 

36 } 

37 

38 for(int jj = 0; jj < unroll n float4; jj++) { 

39 tb[jj*BS+ty] [tx] = b[j +ty*N float4+jj*BS+tx]; // code2 

40 } 

41 

42 barrier (CLK LOCAL MEM FENCE); 

43 for (int k = 0; k < BS; k++){ 

44 for(int ii = 0; ii < unroll m float4; ii++) { 

45 for(int jj = 0; jj < unroll n float4; jj++) { 

46 float4 temp a = talii*BS +ty] [k]; 

47 float4 temp b = tb[jj*BS+k] [tx]; 

48 Vv[4*ii+0] [jj] += temp a.x*temp b;// code3 

49 Vv[4*ii+1] [jj] += temp a.y*temp b;// code3 

50 Vv[4*ii+2] [jj] += temp a.z*temp b;// code3 

51 Vv[4*ii+3] [jj] += temp a.w*temp b;// code3 

52 } 

53 } 

54 } 

S55 barrier (CLK LOCAL MEM FENCE); 

56 } 

57 

58 or (int die O01i < nroLL Im; tt) 

S59 for(int jj = 0; jj < unroll n float4; jj++) { 

60 c[N float4* (BS*(iitby*unroll m) + ty) + 
(bx*unroll n float4+jj)*BS+ tx] = Vv[ii] [jj];// code4 

61 } 

62 } 

63 } 

64 


代码 第 10 和 11 行 分 配 了 更 多 的 局 部 存储 器 以 保存 工作 组 计算 需要 的 输入 数据 。 第 18 到 23 行 初始 化 工作 项 要 计算 的 结果 。 第 
29 到 36 行 从 矩阵 a 中 读 取 数据 存 入 局 部 存储 器 中 。 第 38 到 40 行 从 和 矩 阵 b 中 读 取 数 据 存 入 局 部 存储 器 中 。 第 43 到 54 行 从 局 部 存储 器 
中 读 取 数据 到 寄存 器 中 ， 然 后 在 寄存 器 中 计算 。 第 58 到 62 行 每 个 工作 项 将 计算 的 部 分 结果 保存 到 全 局 存储 器 中 。 


为 了 保证 从 矩阵 a 和 和 矩阵 b 中 读 取 数 据 满足 全 局 存储 器 的 合并 访问 要 求 ， 采 用 了 跨 BSs 访 问 的 模式 ， 工 作 项 0 第 一 次 访问 0， 第 
二 次 访问 17 (而 不 是 1) ， 这 种 访问 模式 能 够 更 好 地 上 发挥 全 局 人 存储 器 的 带宽 (详细 请 参见 第 8 章 天 于 AMD 的 LDS 以 及 NVIDIA 的 
共享 存储 器 的 介绍 ) 。 


(1) AMD GPU 


采用 16x16 的 工作 组 大 小 ，1x2 的 寄存 器 分 块 方法 。 在 AMD A107400P APU 集 成 的 GPU 上 ， 测 得 计算 时 间 为 97.8ms， 计 
算得 到 其 计算 性 能 为 283 GFLOPS， 这 大 约 是 峰值 计算 性 能 的 64%， 从 某 种 程度 上 说 性 能 已 经 相当 不 错 。CodeXL 结 果 显 示 : 向 
量 计 算 单元 76% 的 时 间 在 忙碌 ， 存 储 器 单元 16% 的 时 间 在 忙碌 。 这 意味 着 现在 大 部 分 时 间 已 经 耗费 在 计算 上 ， 不 过 同时 也 可 看 
出 : 计算 单元 的 延迟 并 没有 完全 被 掩盖 。 


采用 16x16 的 工作 组 大 小 ，1x2 的 寄存 器 分 块 方法 。 在 AMD R9 M280X 上 ， 测 得 计算 时 间 为 19.6ms， 计 算得 到 其 计算 性 能 
为 837.7 GFLOPS， 这 大 约 是 峰值 性 能 的 84%。CodeXL 结 果 显 示 : 向 量 计算 单元 57% 的 时 间 在 忙碌 ， 存 储 器 单元 17% 的 时 间 在 


忙碌 。 


从 计算 性 能 来 看 ， 此 算法 性 能 限制 在 计算 的 延迟 上 ， 如 果 不 能 手动 合理 安排 指令 顺序 以 发 挥 流水 线 效率 ， 优 化 到 现在 已 经 
本 结束 。 


(2) NVIDIA GPU 


在 工作 组 大 小 为 16x16， 寄 存 器 展开 次 数 为 1x2 的 情况 下 ， 此 节 代 码 获 得 了 1602 GFLOPs 的 性 能 。 相 比 代码 清单 10-6 获 得 
了 大 约 30% 的 性 能 提升 ， 这 个 比例 和 寄存 器 重用 导致 的 局 部 存储 器 访问 减少 基本 一 致 。 


分 析 发 现 : 此 代码 的 性 能 主要 限制 在 读 取 和 计算 指令 的 延迟 上 ， 以 后 的 优化 需要 注重 在 如 何 减少 延迟 上 。 
(3) RK3288 Mali T764 GPU 


在 工作 组 大 小 为 8x8， 寄 存 器 展开 次 数 为 1x2 的 情况 下 ， 代 码 获 得 了 2.8GFLOPS 的 性 能 ， 基 本 上 是 前 一 算法 的 一 半 。 从 寄存 
器 重用 的 角度 看 应 该 能 够 提升 性 能 ， 性 能 降低 可 能 的 原因 包括 : 寄存 器 或 缓存 使 用 过 量 ， 但 是 笔者 目前 并 没有 足够 的 资料 和 分 析 
工具 ， 故 只 是 怀疑 ， 读 者 若 有 好 办 法 ， 请 联系 笔者 讨论 。 


10.6 ”优化 流水 线性 能 


对 代码 清单 10-7 而 言 ， 延 迟 主要 来 自 以 下 方面 : 

1) 从 全 局 存储 中 读 取 数 据 ; 

2) 将 数据 写 入 局 部 存储 器 ; 

3) 从 局 部 存储 器 中 读 取 数据 ; 

4) 计算 浮 点 乘 加 时 的 延迟 。 

相对 而 言 ，4) 的 延迟 最 小 ， 故 本 节 忽 略 不 计 。 而 3) 的 延迟 大 部 分 可 以 被 4) 掩盖 ， 故 要 关注 的 延迟 主要 是 1) 和 2) 。 


在 1) 和 2) 中 ，2) 的 延迟 又 比 1) 小 ， 故 优先 解决 1) 导致 的 延迟 。 从 算法 上 看 ， 在 局 部 存储 器 中 计算 一 部 分 结果 和 从 全 局 
存储 器 中 读 取 所 需 的 数据 可 以 通过 流水 线 并 行 掩盖 延迟 。 在 之 前 的 代码 中 ， 采 用 barrier 同 步 计算 以 保护 局 部 存储 器 中 的 数据 方 
式 ， 这 种 方式 简单 直接 ， 但 是 同时 也 阻止 了 从 全 局 存储 器 中 读 取 数据 和 计算 重 芭 的 可 能 。 


要 让 计算 和 从 全 局 存储 器 中 读 取 数 据 重 十 ， 只 需要 同步 2) 就 可 以 。 这 样 在 有 一 些 工作 项 由 于 读 取 全 局 存储 器 的 延迟 导致 等 
待 时 ， 其 它 的 工作 项 可 以 进行 计算 ， 这 样 一 部 分 工作 项 的 计算 就 掩盖 了 另外 一 部 分 工作 项 的 访问 全 局 存储 器 的 延迟 。 如 代码 清单 
10-8 所 示 。 


代码 清单 10-8 ”优化 流水 线性 能 代码 


于 

2 #define PRO LOAD(istart, jstart) {\ 

3 for (int i = 0; ii < nroll m float4; 这 ++) tt \ 

4 float4* temp = tempA+tii; \ 

5 temp->X = a[ (4*ii+0)*BS*K + istart +ty*K+tx]; \ 
6 temp->y = al[l (4*ii+1)*BS*K + istart +ty*K+tx]; \ 
7 temp->z = a[ (4*ii+2)*BS*K + istart +ty*K+tx]; \ 
8 temp->w = al[l (4*ii+3)*BS*K + istart +ty*K+tx]; \ 


COINMIRONPOLD 


ly 
for(int jj = 0; jj < unroll n float4; jj ++) { \ 
tempB[jj] = pljstart+ty*N float4+jj*BS +tx]; \ 
J 
} 


#define STORE TO SMEM {\ 
barrier (CLK LOCAL MEM FENCE); \ 


for(int ii = 0; ii < unroll m float4; ii ++) { \ 
ta[lii*BS+ty] [tx] = tempA[ii]; \ 


}\ 
for(int jj = 0; jj < unroll n float4; jj ++) { \ 
tb[jj*BS+ty] [tx] = tempB[jj]; \ 


jE 


barrier (CLK LOCAL MEM FENCE); \ 


} 


#define COMPUTE {\ 
for (int k = 0; k < BS; k++){ \ 


for(int ii = 0; ii < unroll m float4; ii++) { \ 
for(int jj = 0; jj < unroll n float4; jj++) { \ 
float4 temp a = ta[ii*BS+ty] [k]; \ 
float4 temp b = tb[jj*BS+k] [tx]; \ 
V[4*ii+0] [jj] += temp a.x*temp b; \ 
Vv[4*ii+1] [jj] += temp a.y*temp b; \ 
v[4*ii+2] [jj] += temp a.z*temp b; \ 
v[4*ii+3] [jj] += temp a.w*temp b; \ 


PN 
By 
} 


// Matrix multiplication kernel 
kernel void matrixMultiplyKernel (int M, int N, int K, 
const global float* restrict a, 
const global float4* restrict b, global float4 *c) { 
int by = get group id(1 
int bx = get group id(0 
int tx = get local id(0 
int ty = get local id(1 


~ 


#define unroll m float4 (unroll m/4) 


local float4 ta[lBS*unroll m float4] 
local float4 tb[BS*unroll n float4] 


[BS]; 
[BS]; 


int ab = unroll m*K*BS*by; 
int ae = ab+K; 


int bb = BS*bx*unroll n float4d; 

float4 v[unroll _m] [unzoll 1 n float4]; 

for (int ii = 0; ii < unroll my ii++) { 

for(int jj = 0; jj < unroll n float4; jj++) { 
v[ii] [jj] = 0.0f; 

} 


const int N float4 = N/4; 


float4 tempA[unroll m float4]; 
float4 tempB Unroll ] n float4]; 


PRO LOAD (ab, bb) 


Trit, ,> 

#pragma unroll 1 

for(i = ab, j = bb; i < ae-BS; i += BS, j] 1+= BS*N float4) 
STORE TO SMEM 


PRO LOAD (i+BS, J+BS*N float4) 


COMPUTE 


} 
STORE TO_ SMEM 
COMPUTE 


#pragma unroll 
for (Tit i108 Ti < Urol m; 和 二 和 
#pragma unroll 
for(int jj = 0; jj < unroll n float4; jj++) { 
c[N float4* (BS* (ii+tby* unroll Im) + ty) 
+ (bx*unroll n float4+jj)*BS+ tx] = V [ii][jj];// code4 
} 


宏 PRE_LOAD 将 全 局 存储 器 中 的 数据 读 取 到 寄存 器 中 。 宏 STORE_TO_SMEM 将 宏 PRE_LOAD 从 全 局 存储 器 中 读 取 并 保存 到 
寄存 器 的 数据 写 入 局 部 存储 器 中 。 宏 COMPUTE 从 局 部 存储 器 中 读 取 数据 并 计算 。 


为 了 更 好 地 使 用 流水 线 掩盖 读 取 全 局 存储 器 延迟 ， 手 动 将 PRE_LOAD 偏 移 一 次 循环 ， 以 更 好 地 让 计算 和 从 全 局 存储 器 中 加 载 
数据 的 延迟 相互 掩盖 。 


(1) AMD GPU 


在 AMD A107400P APU 上 ， 测 得 计算 时 间 为 61.3ms， 计 算得 到 其 计算 性 能 为 2607.4 GFLOPS， 相 比 之 前 的 版 本 ， 性 能 几乎 
没有 提升 ， 这 也 间接 证 明了 延迟 主要 是 由 计算 产生 的 。CodeXL 结 果 显 示 : 向 量 计算 单元 72% 的 时 间 在 忙碌 ， 存 储 器 单元 17% 的 
时 间 在 忙碌 。 故 基本 上 可 以 说 现在 计算 的 延迟 已 经 是 限制 因素 了 。 


在 AMD R9 M280X 上 ， 测 得 计算 时 间 为 19.5ms， 计 算得 到 其 计算 性 能 为 839 GFLOPS， 相 比 之 前 的 版 本 几乎 没有 提升 。 
CodeXL 结 果 显 示 : 向 量 计算 单元 57% 的 时 间 在 忙碌 ， 存 储 器 单元 15% 的 时 间 在 忙碌 。 这 间接 证 明了 现在 的 延迟 主要 来 源 于 计 
算 


目前 AMD 并 没有 提供 汇编 器 ， 因 此 并 没有 办 法 手动 安排 指令 顺序 以 减少 延迟 。 
(2) NVIDIA GPU 


在 16x16 的 工作 组 大 小 下 ， 使 用 1x 2 的 寄存 器 分 块 获得 了 1986 GFLOPS 的 性 能 。 相 比 10.5 节 的 算法 ， 获 得 了 大 约 30% 的 性 


接着 向 更 高 性 能 挺进 的 工作 就 留 给 读者 去 尝试 了 。 
(3) RK3288 Mali T764 GPU 


在 8x8 的 工作 组 大 小 下 ， 使 用 1x2 的 寄存 器 分 块 获得 了 3.2GFLOPS 的 性 能 。 相 比 10.5 节 的 版 本 ， 性 能 提升 了 大 约 13%， 可 以 
认为 是 计算 掩 善 访 存 带 来 的 性 能 收益 。 
10.7 本 章 小 结 

本 章 介 绍 了 如 何在 AMD GPU 和 NVIDIA GPU 上 优化 矩阵 乘法 的 性 能 ， 在 AMD M280X GPU 上 ， 本 章 最 终 的 算法 已 经 达到 


峰值 性 能 的 84%; 在 NVIDIA Kepler GPU 上 ， 本 章 最 终 的 算法 也 接近 硬件 单 精度 45% 的 峰值 性 能 。 


本 章 的 算法 在 ARM Mali T764 GPU 上 性 能 不 佳 ， 主 要 是 因为 本 章 的 算法 都 是 依据 AMD GPU 和 NVIDIA GPU 设计 的 ， 因 此 
大 量 使 用 了 局 部 存储 器 ， 而 Mali 并 没有 专用 的 局 部 存储 器 硬件 。 


附录 A OpenCL Query 实 例 


本 部 分 将 主要 讲述 给 当前 计算 机 提供 查询 OpenCL 特征 的 工具 。 主 要 涉及 对 主机 端 OpenCL API 的 OpenCL 平台 查询 与 OpenCL 


设备 查询 。 由 于 主要 涉及 的 API 在 第 3 章 已 经 有 了 比较 详细 的 介绍 ， 而 且 大 家 可 以 从 华章 官方 网 站 下 载 本 章 所 涉及 的 具体 工程 代 
码 来 实际 编译 运行 ， 因 此 对 于 这 些 接口 的 使 用 不 再 做 琐碎 的 介绍 。 


本 部 分 给 出 的 代码 将 主要 提供 Windows 与 OS 义 两 大 GUI 版 本 。 而 ocl_query.c 源 文件 与 ocl_query.h 头 文件 是 其 核心 部 分 。 大 家 可 
以 根据 自己 的 需要 通过 调用 这 些 已 经 实现 的 接口 函数 以 输出 到 控制 台 也 是 完全 可 以 的 。 对 于 Windows 版 本 工程 ， 大 家 必须 至 少 使 
用 Visual Studio 2013 版 本 。 而 对 于 OS 义工 程 项 目 ， 大 家 必须 至 少 使 用 Xcode 5.0 才 能 正常 编译 运行 。 而 在 Linux 下 ， 则 基本 没有 太 
高 要 求 ， 只 要 是 能 支持 C99 标 准 的 编译 器 即 可 编译 。 


下 面 将 主要 描述 OpenCLQuery 应 用 程序 中 当前 OpenCL 2.0 的 API 无 法 直接 查询 到 的 一 个 特征 一 一 最 小 线程 并 行 粒度 。 这 个 概 
念 对 应 于 AMD GPU 的 waveftont 以 及 NVIDIA CUDA GPU 的 warp。 这 在 AMD 官 方 文档 中 也 被 称 作为 分 支 粒 度 ， 即 如 果 有 两 个 这 样 
的 最 小 分 组 同时 执行 两 条 不 同 的 代码 分 支 路 径 ， 彼 此 之 间 不 会 相互 等 待 ， 而 是 仍然 能 够 并 发 执行 。 不 过 这 里 提醒 各 位 读者 一 
下 ，OpenCL 2.1 中 已经 引入 sub wotk-group (〈 子 工作 组 ) 这 个 术语 来 对 应 这 个 概念 。 因 此 ， 在 OpenCL 2.1 到 来 之 前 ， 以 及 对 应 于 
不 支持 OpenCL 2.1 标 准 的 计算 设备 ， 我 们 可 以 通过 本 章 提 供 的 方式 来 查询 最 小 线程 并 行 粒度 。 


我 们 简单 谈 谈 主机 端的 配置 。 主 机 端 就 分 配给 当前 计算 设备 工作 组 最 大 能 容纳 的 工作 项 个 数 即 可 ， 全 局 工作 项 个 数 以 及 工作 
组 内 的 工作 项 个 数 都 为 这 个 值 。 下 面 来 看 看 内 核 函 数 实 现 : 


kernel void QueryMinimumGranularity(intnLoop, global int *pOut) 


/* 同 步 标 志 。 初 始 状态 为 1; 状态 -1 由 后 半边 线程 组 设置 ， 用 于 标识 能 够 与 前 半 线 程 组 
并 发 执行 ;状态 -2 由 前 半 线 程 组 设置 ,用 于 说 明 找 到 了 不 可 并 发 执行 的 线程 组 的 粒度 ， 
终止 程序 */ 
local volatile int flag; 
int index = get global id(0); 
/* 这 里 ,全 局 工作 组 个 数 应 该 总 是 为 当前 计算 设备 的 最 大 工 作 组 大 小 (MAX WOKR GROUP SIZE) */ 
inttotalItems = get global size(0); 
do 


{ 

inthalfIndex = totalItems / 2; 
// 设置 初始 标志 状态 值 
if(index == 0) 
flag = 1; 
if OPENCL C VERSION < 200 
barrier (CLK LOCAL MEM FENCE); 
else 

work group barrier (CLK LOCAL MEM FENCE); 
endif 加 加 
if(index <halfIndex) 


{ 
/* 这 里 先 用 一 个 稍 大 的 循环 来 等 待 后 半 线 程 组 的 并 发 执行 , 如果 它 能 发 生 的 话 */ 
for (int i = 0; i <nLoop; I++) 


// 如 果 当 前 标志 
if (flag == -1) 
break; 


} 
/* 若 状态 仍然 为 1， 说 明 后 半 线 程 组 并 未 并 发 执行 ,当前 整个 线程 组 粒度 即 为 最 小 并 行 线程 粒度 */ 


if(flag != -1) 
{ 
// 设置 终止 标志 状态 
if(index == 0) 
{ 
*pOut = totalIltems; 
flag = 2; 
} 
J} 
} 
else 
{ 
if(index == halfIndex) 
/* 如 果 状 态 不 是 终止 ,那么 设置 -1 状态 ， 表 示 后 半 线 程 组 已 经 并 发 执行 了 */ 
if(flag != 2) 
Flag = = 


} 
} 
#if OPENCL C VERSION < 200 
barrier (CLK LOCAL MEM FENCE); 
#else 
work group barrier (CLK LOCAL MEM FENCE); 
#engif 


if(flag == 2) 
break; 

/* 如 果 不 是 最 小 并 行 线程 粒度 , 则 再 对 当前 线程 组 的 前 半 线 程 作为 一 个 新 的 组 进行 测试 */ 
totalItems /= 2; 


} 
while (totalItems> 0); 
} 


首先 ， 这 个 函数 含有 两 个 参数 ， 第 一 个 参数 nLoop 用 于 指定 在 代码 内 部 将 使 用 多 少 次 空 循环 进行 等 待 ， 而 第 2 个 参数 pOut 用 


于 输出 结果 ， 即 组 成 一 个 最 小 线程 并 行 粒度 的 工作 项 需要 多 少 个 。 


然后 我 们 大 致 说 一 下 实现 最 小 线程 并 行 粒 度 这 个 特征 查询 的 算法 思路 。 我 们 在 第 8 章 里 已 经 了 解 到 ， 很 多 GPGPU 在 实现 大 规 
模 数 据 并 行 执行 时 ， 在 一 个 工作 组 内 其 实 含 有 若干 组 更 小 粒度 的 能 相互 独立 执行 的 线程 组 ， 这 种 线程 组 一 般 由 数 十 个 工作 项 构 
成 。 在 AMD 的 GPGPU 中 ， 这 种 线程 组 被 称 为 wavefront， 一 个 wavefront 由 64 个 工作 项 构成 ， 而 一 个 工作 组 往往 含有 256 个 工作 项 ， 
即 4 条 wavefront; 而 在 NVIDIA 的 CUDA GPGPU 中 ， 这 种 线程 组 被 称 为 一 个 watp， 一 个 watp 由 32 个 工作 项 构成 。 而 这 种 线程 组 在 
执行 时 ， 彼 此 相互 独立 ， 但 是 它 所 包含 的 所 有 工作 项 都 会 “原子 地 ”同时 并 行 执行 。 当 分 支 由 两 条 不 同 的 线程 组 之 间 产 生 时 ， 不 
会 有 很 大 执行 开销 ， 因 为 这 两 个 线程 组 能 彼此 相互 独立 地 执行 不 同 分 支 路 径 ; 但 是 当 在 一 个 这 样 的 线程 组 内 发 生 分 支 时 ， 那 么 所 
有 不 执行 该 分 支 的 工作 项 仍然 会 参与 执行 但 不 产生 副作用 ， 或 是 等 待 执 行 该 分 支 的 工作 项 都 完成 执行 后 再 一 同 往 下 执行 。 因 此 ， 
我 们 就 利用 该 线程 组 的 这 种 特性 来 判定 它 由 多 少 个 工作 项 构成 。 一 般 这 种 线程 组 在 一 个 工作 组 内 是 均匀 分 布 的 ， 也 就 是 说 如 果 是 
一 条 waveftront， 那 么 工作 项 0 到 63 为 第 一 条 wavefront; 工作 项 64 到 127 为 第 二 条 waveftont， 以 此 类 推 。 所 以 我 们 在 推测 时 也 会 利用 


这 种 特性 ， 采 用 二 分 法 进行 。 


在 一 开始 ， 一 共有 MAX WORK _ GROUP_SIZE 个 工作 项 参与 计算 ， 然 后 我 们 让 前 一 半 工 作 项 去 观察 某 一 个 标志 的 修改 情 
况 ， 而 让 后 一 半 工 作 项 去 修改 该 标志 。 如 果 前 一 半 没 有 观察 到 该 标志 被 修改 ， 说 明 当 前 所 有 工作 项 都 进入 了 前 一 半 工 作 项 的 分 
支 ， 因 此 上 暗示 了 它们 已 经 是 属于 一 个 线程 组 里 的 工作 项 了 ， 此 时 可 直接 终止 执行 ， 输 出 结果 。 如 果 观 察 到 标志 被 修改 了 ， 那 么 说 
明 另 一 半 能 与 前 一 半 并 发 执行 不 同 的 分 支 ， 所 以 它们 不 是 处 于 同一 个 分 支 粒 度 线 程 组 中 ， 因 此 可 以 继续 划分 。 在 这 种 情况 下 ， 我 
们 忽略 掉 后 一 半 的 线程 组 ， 就 对 前 一 半 的 线程 组 再 进行 划分 一 半 ， 分 为 前 一 半 和 后 一 半 ， 观 察 是 否 为 分 支 粒 度 的 线程 组 。 


在 程序 开头 我 们 先 定 义 一 个 本 地 存储 器 变量 flag 用 于 标记 线程 组 的 修改 状态 。 先 把 它 初始 化 为 1 ， 作 为 初始 化 状态 。 然 后 下 面 
在 index<halfIndex 的 分 支 路 径 中 执行 观察 该 标志 的 变化 情况 。 如 果 标 志 被 修改 成 了 -1， 则 里 面 跳出 等 待 循环 。 如 果 没 有 被 修改 为 - 


如 果 当 前 flag 标 志 不 为 2， 说 明 可 以 正常 执行 ， 该 工作 项 把 此 标志 设置 为 -1。 然 后 就 继续 做 下 一 步 的 栅栏 操作 。 当 后 半 线 程 组 的 工 
作 项 执行 栅栏 操作 之 后 ， 它 们 对 本 地 存储 器 所 做 的 所 有 修改 都 能 对 整个 工作 组 的 其 他 工作 项 可 见 。 因 此 ， 我 们 在 最 后 要 设置 一 条 
栅栏 操作 ， 否 则 前 半 线 程 组 里 的 工作 项 是 无 法 观察 到 flag 标 志 被 修改 的 。 


最 后 ， 判 断 是 否 已 经 判定 出 了 最 小 线程 组 的 粒度 ， 如 果 判 定 出 来 ， 则 返回 ， 否 则 对 总 的 工作 项 个 数 除 以 2 继续 执行 。 


对 于 OpenCL Quetry 应 用 的 其 余 内 容 ， 各 位 读者 可 以 看 下 载 资 源 中 相应 的 源 代码 。 源 代码 中 本 身 含 有 很 多 注释 ， 而 且 也 没有 
用 到 很 隐 罗 的 语法 特性 ， 比 较 易 读 。 


附录 B ”其 他 主流 异 构 并 行 计算 编程 环境 简介 


本 书 主 要 讲述 的 是 通过 OpenCL 进 行 异 构 并 行 计算 。 而 之 前 在 第 1 章 已 经 简单 地 描述 了 OpenGL 以 及 CUDA 对 GPGPU 进 行 编程 


的 特征 。 下 面 将 简单 描述 除 OpenCL 之 外 的 主流 异 构 并 行 计 算 环 境 。 


1.CUDA 


CUDA 是 由 NVIDA 在 2007 年 6 月 23 日 发 布 的 。 其 全 称 为 Compute Unified Device Architecture (统一 计算 设备 架构 ) 。 主 要 用 于 
NVIDA 对 于 自家 设计 的 GPGPU 的 通用 并 行 计算 编程 。 正 因为 CUDA 完 全 是 由 NVIDIA 自 家 独自 使 用 ， 因 此 NVIDIA 为 CUDA 提 供 
了 一 套 虚 拟 指令 集 ( 称 为 PTIX，Parallel Thread Execution) ， 可 用 于 兼容 不 同型 号 的 GPU。 


与 OpenCL 类 似 ，CUDA 为 主机 端 提 供 了 C/C++ 接口 ， 而 在 设备 端 则 提供 了 一 种 叫 CUDA C/C++ 的 编程 语言 ， 这 种 编程 语言 
类 似 于 OpenCL C 编 程 语言 ， 用 于 设备 端的 编程 。 而 与 OpenCL 不 同 的 是 ， 主 机 端 代 码 与 设备 端 代 码 可 以 全 都 写 在 一 个 源 文件 内 ， 
源 文 件 的 后 级 名 为 .cu， 然 后 由 NVIDIA 自 己 的 NVCC 编 译 器 进行 编译 。 除 此 之 外 ，CUDA 还 提供 了 设备 端的 CUDA Fortran 语 言 ， 


如 果 使 用 Fortran 编 程 语 言 ， 那 么 可 以 用 CUDA Fortran 编 译 器 进行 编译 。 


CUDA 虽 然 目 前 只 能 用 于 NVIDIA 出 产 的 GPU， 不 过 它 仍 然 可 以 跨 Windows、Linux 与 OS 义 三 大 桌面 平台 。 除 此 之 外 ， 在 像 
Jetson TK 这 种 座 入 式 平台 下 也 能 使 用 CUDA。 


正 因为 CUDA 不 需要 像 OpenCL 那 样 考虑 各 种 不 同 计算 设备 环境 ， 另外 加 上 它 发 布 得 早 ， 因 此 早 在 CUDA 4.0 时 就 能 支持 统一 
虚拟 内 存 特性 (这 个 在 OpenCL 上 要 到 2.0 版 本 才能 使 用 ， 而 与 OpenCL 2.0 差 不 多 时 期 发 布 的 ， 则 是 CUDA 7.0) 。 


2.0penACC 


OpenACC 是 由 Cray、CAPS、NVIDIA 以 及 PGI 所 开发 的 一 门 并 行 计算 的 编程 标准 。 其 目的 在 于 简化 CPU 与 GPU 异 构 并 行 编程 
系统 。 在 2012 年 ，AMD 与 Intel 也 加 入 了 OpenACC 标 准 的 研发 工作 。 


OpenACC 的 编程 方式 与 OpenCL 和 CUDA 都 不 太一 样 。 它 跟 OpenMP 类 似 ， 而 且 在 2012 年 也 被 合并 进 了 OpenMP 标 准 小 组 中 。 
OpenACC 通 过 使 用 编译 器 指示 符 (C/C++ 中 为 #pragma) 以 及 自己 独 有 的 肖 数 来 标注 C/C++、Fortran 代 码 来 指示 哪 块 代码 区 域 应 
该 被 加 速 ( 即 通过 GPU 进 行 计算 ) 。 


对 于 C/C++ 作为 宿主 语言 的 平台 ，OpenACC 的 编程 形式 如 下 : 


#pragma acc parallel 
#pragma acc kernels 


3.C++AMP 


C++AMP 是 由 微软 开发 的 基于 本 地 编程 模型 的 并 行 计算 语言 。 它 主要 是 对 C++ 编程 语言 以 及 其 运行 时 库 进 行 了 扩展 ， 然 后 
可 以 直接 在 主机 端 编写 可 被 计算 设备 加 速 器 加 速 的 代码 。 因 此 与 CUDA 比 较 类 似 ， 但 感觉 又 是 介 于 CUDA 与 DpenACC 之 间 。 


C++AMP 的 底层 实现 仍然 是 基于 DirectX 11 中 的 DirectCompute 技 术 (下 一 小 节 会 讲 ) ， 因 此 基本 只 能 运行 在 Windows 平 台 
下 。 目 前 从 Windows 7 开始 支持 ， 编 译 环境 是 从 Visual Studio 2012 开 始 支持 。 


C++AMP 通 过 扩展 C++ 语法 中 的 函数 限定 符 testtict (amp) ， 来 指示 当前 函数 或 lambda 表 达 式 可 被 C++AMP 加 速 器 计算 。 如 
果 当 前 环境 没有 可 用 的 加 速 器 ， 那 么 编译 器 也 会 将 CPU 代码 优化 为 采用 SIMD 指 令 方 式 进行 执行 。 因 此 ，C++AMP 的 编程 也 相对 
比较 简单 ， 而 且 编 译 器 与 运行 时 也 能 灵活 支配 当前 可 用 计算 设备 。 


4. 图 形 APl 中 所 包含 的 通用 计算 特性 


像 Direct3D、OpenGI (ES) 、Metal 等 图 形 API 都 含有 自己 的 通用 计算 接口 ， 或 者 说 是 通用 计算 流水 线 。 由 于 这 些 图 形 API 主 
要 针对 GPU， 因 此 对 于 其 他 非 GPU 类 型 的 加 速 器 来 说 可 能 就 不 可 用 了 。Direct3D 从 11.0 开 始 引 入 了 DirectCompute 技 术 ， 这 可 以 使 
得 GPGPU 直 接 使 用 其 通用 计算 流水 线 ， 而 不 需要 像 以 往 ， 通 过 图 形 流水 线 ， 利 用 Pixel Shader 来 进行 通用 计算 。 而 且 
DirectCompute 中 的 HLSL 的 灵活 性 也 要 比 Pixel Shader 强 大 。 类 似 地 ，OpenGL 从 4.3 起 ，OpenGL ES 从 3.1 起 也 引入 了 Compute 
Shader， 可 以 直接 利用 GPGPU 的 通用 计算 流水 线 。 开 发 者 可 以 绕 过 OpenGL (ES) 传统 的 图 形 泻 染 流 水 线 ， 不 需要 借助 Fragment 
Shader， 而 直接 使 用 更 加 灵活 的 Compute Shader 来 做 通用 计算 。 而 在 Metal 中 ， 第 一 版 就 引入 了 数据 级 并 行 计算 ， 尽 管 Metal 可 编程 
着 色 语言 与 OpenGL 比 起 来 要 灵活 很 多 ,而 且 也 真正 做 到 了 顶点 、 片 段 着 色 器 与 计算 着 色 器 的 语法 统一 。 不 过 ， 能 绕 过 整个 复杂 
的 图 形 流 水 线 而 直接 利用 简单 的 GPU 的 通用 计算 流水 线 ， 这 样 也 会 节省 很 多 不 必要 的 开销 。 


而 这 些 API 除 了 基本 只 能 用 于 GPU 设备 这 种 局 限 性 以 外 ， 还 存在 平台 局 限 性 : 像 Direct3D 只 能 用 于 Windows 平 台 ; 而 
OpenGL (ES) 适用 范围 比较 广 ， 横 路 了 Windows、Linux (包括 Andtoid) ， 以 及 OS 义 和 iOS; 而 Metal 只 支持 iOS 与 OS 义 系 统 。 


5.HSA 


HSA (Heterogeneous System Atrchitecture) ， 异 构 系 统 架 构 是 一 个 计算 机 处 理 器 架构 系统 。 它 在 同一 条 系统 总 线 上 集成 了 中 
央 处 理 器 (CPU) 与 图 形 处 理 器 (GPU) ， 两 者 能 共享 存储 器 和 任务 。HSA 由 一 个 称 为 HSA Foundation 的 组 织 进 行 开 发 。 它 主要 
由 AMD 领 衔 ， 然 后 还 有 ARM、Imagination Technology、 高 通 、TI、 联 发 科 等 巨头 企业 支持 研发 。 其 主要 开发 目的 就 是 在 于 减少 
CPU、GPU 与 其 他 计算 设备 之 间 的 通信 延迟 ， 并 且 使 得 这 些 各 种 不 同 的 设备 从 程序 员 的 角度 来 看 能 更 为 一 致 ， 从 而 使 得 程序 员 不 
需要 太 过 关注 从 设备 不 同 存储 器 之 间 做 数据 搬移 的 任务 。 我 们 来 看 图 B-1 和 图 B-2 两 张 对 比 图 。 
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表 B-1 传统 编程 模型 


图 B-1 描 述 了 像 OpenCL 或 CUDA 这 样 的 编程 模型 中 让 GPU 执行 计算 任务 时 ，CPU 与 GPU 的 数据 通信 以 及 作业 调度 过 程 。 在 这 
种 传统 的 编程 模型 中 我 们 看 到 ， 在 主机 端 不 仅仅 需要 了 解 计算 任务 的 执行 ， 而 且 还 要 关心 数据 的 输入 输出 ， 也 就 是 对 存储 器 对 象 
的 管理 。 我 们 再 看 看 图 B-2 中 的 HSA 编 程 模 型 的 流程 图 。 
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表 B-2 HSA 编 程 模型 


图 B-2 就 是 HSA 系 统 架构 下 的 编程 模式 。 在 这 种 编程 模型 下 ， 程 序 员 不 需要 关心 存储 器 对 象 的 管理 ， 甚 至 不 需要 自己 去 维护 
命令 队列 ， 这 一 切 都 由 HSA 软 件 来 委托 管理 。 


HSA 定 义 了 一 个 系统 架构 的 一 组 特性 ， 这 些 特 性 的 目的 就 是 让 异 构 计 算 能 够 变 得 更 为 主流 。 异 构 计 算 本 身 是 含有 多 种 处 理 器 
的 系统 ， 包 括 CPU、GPU、DSP 或 其 他 ASIC (Application-Specific Integrated Circuits) 硬件 设备 。HSA 系 统 架 构 允 许 其 中 任 一 计算 
加 速 器 能 够 在 以 系统 的 CPU 相同 的 级 别 下 进行 操作 。 


其 中 一 个 特性 就 是 ，HSA 为 计算 设备 定义 了 一 个 统一 虚拟 地 址 空间 : 在 这 个 虚拟 地 址 空间 中 ，GPU 等 计算 设备 具有 其 自己 的 
存储 器 ， 独 立 于 主 存 (CPU 端的 存储 器 ) ， 而 HSA 系 统 要 求 这 些 设备 共享 页 表 ， 这 样 这 些 设备 能 够 通过 共享 指针 来 交换 数据 。 这 
是 通过 定制 的 存储 器 管理 单元 来 支持 的 。 为 了 能 使 这 些 计算 设备 与 CPU 之 间 的 交互 成 为 可 能 ， 并 且 为 了 简化 编程 ，HSA 为 CPU 以 
及 计算 加 速 器 引入 了 一 套 对 设备 透明 的 虚拟 ISA (类 似 于 CUDA 的 PTX) ， 从 而 能 更 好 地 支持 上 层 编 程 语 言 。 


目前 为 止 ，HSA 规 格 说 明 中 已 经 涵盖 了 : 


. HSA 中 间 层 (HSAIL) : 它 是 一 套用 于 并 行 计算 编程 的 虚拟 指令 集 。 当 前 ，Khronos 组 织 也 已 经 发 布 了 SPIR (Standard 
Portable Intermediate Representation) ， 原 先 用 于 OpenCL 的 中 间 代 码 表 示 ， 现 在 也 将 用 于 即将 发 布 的 Vulkan (下 一 代 图 形 编 程 标准 
库 ) ， 与 HSAIL 类 似 ， 但 是 没有 HSAIL 定 义 得 细致 。HSAIL 能 够 通过 一 个 JIT (Just In-Time) 编译 器 及 时 地 编译 为 当前 计算 设备 自 
己 特定 的 指令 集 。HSAIL 也 具备 了 调度 某 个 任务 在 哪些 计算 核 上 执行 的 决策 能 力 。 同 时 ， 它 更 可 怕 的 是 能 支持 异常 处 理 〈 类 似 于 
C++、Java 中 的 try-catchV/throw 机 制 ) 以 及 虚 函 数 等 其 他 高 级 编程 语言 特性 。 这 些 机 制 在 当前 OpenCL 2.0 C 编 程 语言 中 是 不 具备 
的 。 另 外 ，HSAIL 也 支持 了 系统 调用 (I/O、printf 等 功能 ) 以 及 支持 断 点 调试 等 。 从 这 个 角度 来 看 ，HSAIL 使 得 对 计算 设备 的 编 
程 变 得 更 像 是 对 传统 CPU 的 编程 ， 对 程序 员 非 常 友好 。 


. ISA 存储 器 模型 : 其 存储 器 模型 与 C/C++11、OpenCL、Java 以 及 .NET 环 境 下 的 存储 器 模型 兼容 。 它 具备 松弛 的 存储 器 


致 性 (与 OpenCL 2.0 的 memory_order_relaxed 类似) 。 


"HSA 分派 器 以 及 运行 时 : 允许 异 构 任务 队列 ， 每 个 核 一 个 工作 队列 ， 将 作业 分 发 到 队列 中 ， 通 过 作业 调度 来 进行 负载 均 
的 负荷 


衡 。 任 一 核心 都 能 给 任 一 其 他 核心 调度 作业 ， 包 括 自 己 。 这 样 大 大 地 降低 了 为 一 个 核心 做 作业 调度 的 负荷 


某 些 硬 件 中 实现 的 HSA 特 定 的 特征 需要 由 操作 系统 内 核 以 及 专门 的 设备 驱动 来 支持 。 比 如 ，AMD Radeon 以 及 AMD FirePro 的 
GPU 以 及 基于 GCN 架 构 的 APU 已 经 被 融合 进 了 Linux 内 核 3.19 版 本 ， 这 已 经 在 2015 年 2 月 8 日 发 布 。 在 AMD 的 HSA 实 现 中 ， 应 用 程 
序 并 不 直接 与 andkfd (AMD 的 HSA Linux 内 核 驱 动 ) 交互 ， 而 是 利用 HSA 运 行 时 来 排队 这 些 人 作业。 此外，amdkfd 支 持 异 构 队 列 

(简称 为 HQ) ， 它 的 目的 在 于 简化 多 个 CPU 与 GPU 之 间 计 算 任 务 的 分 发 。 


